|
|
3.4. СтопсловаСтопслова -- наиболее часто используемые слова, т.е слова, встречающиеся почти в каждом документе коллекции. Стопслова удаляются перед созданием индекса, что посзволяет сократить размер индекса без сколько-нибудь значимой потери в качестве поиска. 3.4.1. Команда StopwordFileЗагружает стоп-слова из указаного файла. Вы можете задать как абсолютный, так и относительный путь. Относительный путь задаётся от директории etc. Можно использовать несколько команд StopwordFile. StopwordFile stopwords/en.sl Вы должны использовать один и тот же надор команд StopwordFile в indexer.conf и search.htm (searchd.conf если используется searchd). 3.4.2. Формат файла стопсловВы можете создавать свои файлы стоп-слов. В качестве примера, вы можете использовать файл английских стоп-слов etc/stopwords/en.sl. В начале листа поместите следующие две команды: Language: en Charset: us-ascii
Затем следует список слов, по одному на строку. Каждое слово записывается в кодировке, указанной выше командой Charset:. Вы можете использовать дополнительную команду Match: для задания шаблона, любое слово подпадающее под который будет считаться стоп-словом. Например: Match: regex ^\$## По этой команде любое слово, начинающееся с $## будет рассматриваться как стоп-слово. Опции команды Match: аналогичны опциям команды Allow (см. Разд. 3.10.14>). Аргументы записываются в кодировке, указанной командой Charset:. Регулярные выражения в данный момент ограничены (например, не поддерживаются интервалы).
|