DataparkSearch Engine 4.54

Справочное руководство


Содержание
1. Введение
1.1. Возможности DataparkSearch
1.2. Где взять DataparkSearch
1.3. Отказ от ответственности и гарантий
1.4. Авторы
1.4.1. Помощники
2. Установка
2.1. Требования к SQL базе даных
2.2. Поддерживаемые операционные системы
2.3. Инструментарий, необходимый для установки
2.4. Инсталяция DataparkSearch
2.5. Возможные проблемы установки
2.6. Создание дистрибутивов исполняемых модулей
2.7. Простая рутина использования
3. Индексирование
3.1. Общая информация об индексировании
3.1.1. Конфигурирование
3.1.2. Запуск indexer
3.1.3. Создание SQL-таблиц
3.1.4. Удаление SQL-таблиц
3.1.5. Управление подсекциями
3.1.6. Как очистить базу данных
3.1.7. Статистика базы данных
3.1.8. Проверка ссылок
3.1.9. Параллельное индексирование
3.2. Реакция на коды HTTP-ответа
3.3. Поддержка Content-Encoding
3.4. Стопслова
3.4.1. Команда StopwordFile
3.4.2. Формат файла стопслов
3.4.3. Команда FillDictionary.
3.4.4. Команда StopwordsLoose.
3.5. Клоны документов
3.5.1. Команда DetectClones
3.6. Указание веб-пространства для индексирования
3.6.1. Команда Server
3.6.2. Команда Realm
3.6.3. Команда Subnet
3.6.4. Использование различным параметров для сервера и его подсекций
3.6.5. Использование indexer -f <filename>
3.6.6. Команда URL
3.6.7. Команды ServerDB, RealmDB, SubnetDB и URLDB
3.6.8. Команды ServerFile, RealmFile, SubnetFile и URLFile
3.6.9. Стандарт исключений для роботов
3.7. Алиасы
3.7.1. Команда Alias (из indexer.conf)
3.7.2. Алиасы для различных частей сервера
3.7.3. использование алиасов в команде Server
3.7.4. Использование алиасов в команде Realm
3.7.5. Команда AliasProg
3.7.6. Команда ReverseAlias
3.7.7. Команда ReverseAliasProg
3.7.8. Алиасы в search.htm
3.8. ServerTable
3.8.1. Загрузка таблицы серверов
3.8.2. Структура таблицы серверов
3.8.3. Команда FlushServerTable
3.9. Внешние парсеры
3.9.1. Поддерживаемые типы парсеров
3.9.2. Установка парсеров
3.9.3. Воизбежание зависания парсера при выполнении
3.9.4. Конвееры в командных строках парсеров
3.9.5. Кодировки и парсеры
3.9.6. Переменная окружения DPS_URL
3.9.7. Некоторые внешние парсеры
3.9.8. Библиотека libextractor
3.10. Остальные команды, используемые в indexer.conf
3.10.1. Команда Include
3.10.2. Команда DBAddr
3.10.3. Команда VarDir
3.10.4. Команда NewsExtensions
3.10.5. Команда SyslogFacility
3.10.6. Команды указания длины слова
3.10.7. Команда MaxDocSize
3.10.8. Команда MinDocSize
3.10.9. Команда IndexDocSizeLimit
3.10.10. Команда URLSelectCacheSize
3.10.11. Команда URLDumpCacheSize
3.10.12. Команда UseCRC32URLId
3.10.13. Команда HTTPHeader
3.10.14. Команда Allow
3.10.15. Команда Disallow
3.10.16. Команда CheckOnly
3.10.17. Команда HrefOnly
3.10.18. Команда CheckMp3
3.10.19. Команда CheckMp3Only
3.10.20. Команда IndexIf
3.10.21. Команда NoIndexIf
3.10.22. Команда AllowIf
3.10.23. Команда DisallowIf
3.10.24. Команда HoldBadHrefs
3.10.25. Команда DeleteOlder
3.10.26. Команда UseRemoteContentType
3.10.27. Команда AddType
3.10.28. Команда Period
3.10.29. Команда PeriodByHops
3.10.30. Команда ExpireAt
3.10.31. Команда UseDateHeader
3.10.32. Команда LMDSection
3.10.33. Команда MaxHops
3.10.34. Команда TrackHops
3.10.35. Команда MaxDepth
3.10.36. Команда MaxDocsPerServer
3.10.37. Команда MaxHrefsPerServer
3.10.38. Команда MaxNetErrors
3.10.39. Команда ReadTimeOut
3.10.40. Команда DocTimeOut
3.10.41. Команда NetErrorDelayTime
3.10.42. Команда Cookies
3.10.43. Команда Section
3.10.44. Команда HrefSection
3.10.45. Команда FastHrefCheck
3.10.46. Команда Index
3.10.47. Команда ProxyAuthBasic
3.10.48. Команда Proxy
3.10.49. Команда AuthBasic
3.10.50. Команда ServerWeight
3.10.51. Команда OptimizeAtUpdate
3.10.52. Команда SkipUnreferred
3.10.53. Команда Bind
3.10.54. Команда ProvideReferer
3.10.55. Команда LongestTextItems
3.10.56. Команда MakePrefixes
3.11. Расширенные возможности индексирования
3.11.1. Расширенные возможности индексирования новостей
3.11.2. Индексирование таблиц SQL баз данных (виртуальная URL схема htdb:)
3.11.3. Индексирование вывода программ (виртуальные схемы URL exec: и cgi:)
3.11.4. Зеркалирование
3.11.5. Сбор данных
3.12. Использование syslog
3.13. Хранение сжатых копий документов
3.13.1. Конфигурирование stored
3.13.2. Как работает stored
3.13.3. Использование stored при поиске
3.13.4. Цитаты документов
4. HTML-парсер в DataparkSearch
4.1. Tag-парсер
4.2. Специальные символы
4.3. META-тэги
4.4. Ссылки
4.5. Комментарии
4.6. Шаблоны для индексирования
4.7. Sub-documents
5. Хранение данных
5.1. SQL режимы хранения
5.1.1. Общая инфоромация о хранении
5.1.2. Разнообразные способы хранения слов
5.1.3. Способ хранения single
5.1.4. Способ хранения multi
5.1.5. Способ хранения crc
5.1.6. Способ хранения crc-multi
5.1.7. Замечание о стуктуре таблиц для SQL серверов
5.1.8. Дополнительные возможности не-CRC режимов хранения
5.2. Способ хранения Cache
5.2.1. Введение
5.2.2. Структура индексов слов при способе хранения Cache
5.2.3. Утилиты для способа хранения Cache
5.2.4. Запуск способа хранения cache
5.2.5. Использование нескольких splitter одновременно
5.2.6. Использование скрипта run-splitter
5.2.7. Поиск
5.2.8. Использование лимитов при поиске
5.3. К вопросу производительности DataparkSearch
5.3.1. Рекомендация использовать searchd
5.3.2. Кэширование результатов поиска
5.3.3. Рекомендация использовать файловую систему в памяти (mfs)
5.3.4. Команда URLInfoSQL
5.3.5. Команда SRVInfoSQL
5.3.6. Команда MarkForIndex
5.3.7. Команда CheckInsertSQL
5.3.8. Производительность MySQL
5.3.9. Библиотека асинхронного резолвера
5.4. Поддержка SearchD
5.4.1. Для чего использовать searchd
5.4.2. Запуск searchd
5.5. Oracle notes
5.5.1. Introduction
5.5.2. Compilation, Installation and Configuration
6. Подсекции
6.1. Тэги
6.1.1. Команда Tag
6.1.2. Команда TagIf
6.1.3. Тэги в SQL версии
6.2. Категории
6.2.1. Команда Category
6.2.2. Команда CategoryIf
6.2.3. Загрузка таблицы категорий
6.2.4. Команда FlushCategoryTable
7. Поддержка языков
7.1. Кодировки
7.1.1. Поддерживаемые кодировки
7.1.2. Разные названия кодировок
7.1.3. Перекодировка во время индексации
7.1.4. Выбор LocalCharset
7.1.5. Определение кодировки документа
7.1.6. Автоматическое распознавание кодировки
7.1.7. Кодировка документов по-умолчанию
7.1.8. Язык документов по-умолчанию
7.1.9. Перекодировка во время поиска
7.1.10. Команда LocalCharset
7.1.11. Команда RemoteCharset
7.1.12. Команда URLCharset
7.1.13. Команда CharsToEscape
7.2. Создание многоязычных страниц поиска
7.2.1. Как это работает ?
7.2.2. Возможные сложности
7.3. Сегментеры фраз японского, тайского, корейского и китайского языков
7.3.1. Сегментер фраз японского языка
7.3.2. Сегментер фраз китайского языка
7.3.3. Сегментер фраз тайского языка
7.3.4. Сегментер фраз корейского языка
7.4. Поддержка мультиязычных веб серверов
8. Поиск документов
8.1. Использование поисковых фронт-эндов
8.1.1. Осуществление поиска
8.1.2. Параметры поиска
8.1.3. Изменение весов различных частей документов во время поиска
8.1.4. Использование фронт-энда на страницах с SSI
8.1.5. Использование нескольких шаблонов
8.1.6. Операторы происка
8.1.7. Булев поиск
8.1.8. Язык запросов Verity Query Language, VQL
8.1.9. Как используются при поиске устаревшие документы
8.2. Модуль mod_dpsearch для Apache httpd
8.2.1. Для чего использовать mod_dpsearch
8.2.2. Конфигурирование mod_dpsearch
8.3. Как создавать шаблоны результатов поиска
8.3.1. Секции шаблона
8.3.2. Секция Variables
8.3.3. Включения в шаблонах
8.3.4. Условные операторы в шаблонах
8.3.5. О безопасности
8.4. Дизайн search.html
8.4.1. Как создаётся страница результатов
8.4.2. Ваш HTML-шаблон
8.4.3. О формах
8.4.4. Относительные ссылки в search.htm
8.4.5. Добавление формы поиска на другие страницы
8.5. Релевантность
8.5.1. Упорядочивание документов
8.5.2. Расчёт релевантности
8.5.3. Рейтинг популярности
8.5.4. Булевы запросы
8.5.5. Crosswords
8.5.6. Алгоритм Построения Рефератов (SEA)
8.6. Регистрация поисковых запросов
8.7. Кэш результатов поиска
8.8. Нечёткий поиск
8.8.1. Ispell
8.8.2. Aspell
8.8.3. Синонимы
8.8.4. Поиск без учёта акцентов над буквами
8.8.5. Акронимы и аббревиатуры
9. Разное
9.1. Сообщение о багах
9.1.1. Известные ошибки и баги
9.1.2. Посмертные дампы
9.2. Использование библиотеки libdpsearch
9.2.1. Скрипт dps-config
9.2.2. DataparkSearch API
9.3. Структура таблиц базы данных
A. Помощь проекту
Индекс подборки
Список таблиц
3-1. Соответствие между типами keyword библиотеки libextractor и именами секций DataparkSearch
3-2. уровни подробности сообщений indexer'а
5-1. Типы предопределенных лимитов способа хранения Cache
5-2. Типы SQL-лимитов способа хранения Cache
7-1. Кодировки и их языковые группы
7-2. Синонимы наименований кодировок
8-1. Параметры поиска
8-2. Операторы VQL, поддерживаемые DataparkSearch
8-3. Параметры расчёта релевантности, задаваемые при компиляции (ключи для configure)
9-1. Структура таблицы server
9-2. Значения некоторых параметров серверов в таблице srvinfo