|
|
3.9. Внешние парсерыDataparkSearch indexer может использовать внешние парсеры для различных типов файлов (mime types). Парсер - это программа, которая конвертирует один из типов файла (mime type) в text/plain или text/html. Например, если у вас есть PostScript файлы, Вы можете использовать парсер (фильтр) ps2ascii, читающий из stdin PostScript файл и выдающий текст в ascci на stdout. 3.9.1. Поддерживаемые типы парсеровIndexer поддерживает четыре типа парсеров, такие что:
3.9.2. Установка парсеров
3.9.3. Воизбежание зависания парсера при выполненииВоизбежание подвисания парсера при выполнении Вы можете указать в Вашем файле indexer.conf число времени в секундах, отводимое на работу парсеру, при помощи команды ParserTimeOut. Напрмиер: ParserTimeOut 600 Значение по умолчанию - 300 секунд, т.е. 5 минут. 3.9.4. Конвееры в командных строках парсеровВы можете использовать конвееры в командных строках парсеров. Например, следующие строки необходимы при индексировании загнузипленых страниц man на локальном диске: AddType application/x-gzipped-man *.1.gz *.2.gz *.3.gz *.4.gz Mime application/x-gzipped-man text/plain "zcat | deroff" 3.9.5. Кодировки и парсерыНекоторые парсеры могут выдавать результат в кодировке, отличной от указанной в команда LocalCharset. Указание кодировки парсера даёт возможность indexer перекодировать результат в нужную кодировку. Например, если catdoc сконфигурирован на вывод результата в windows-1251, а в LocalCharset указана кодировка koi8-r, используйте следующую команду для парсера документов MS Word: Mime application/msword "text/plain; charset=windows-1251" "catdoc -a $1" 3.9.6. Переменная окружения DPS_URLПри выполнении парсера, indexer создаёт переменную окружения DPS_URL, содержащую URL обрабатываемого документа. Вы можете использовать эту переменную в Ваших скриптах парсеров. 3.9.7. Некоторые внешние парсеры
Пожалуйста, присылайте Ваши скрипты и конфигурации для новых парсеров на адрес <dataparksearch@datapark.ru>.
|
||||||||||||