Глава 1. Введение

DataparkSearch является поисковым движком, использующим SQL, и предназначенным для организации поиска на одном или многих веб-серверах. DataparkSearch состоит из двух частей. Первая часть - индексирующий механизм (indexer). Indexer пробегает по ссылкам и сохраняет в базе данных все найденные слова и новые ссылки. Вторая часть состоит из CGI-программы, предоставляющей возможность поиска в данных, собраенных indexerом.

DataparkSearch отделился от mnoGoSearch CVS версии 3.2.16 27 ноября 2003 года как DataparkSearch версии 4.16. Первая версия mnoGoSearch была выпушена в ноябре 1998. До октября 2000, когда проект был передан Lavtech.Com Corp. и переименован в mnoGoSearch, поисковый движок носил имя UDMSearch.

Последние изменения можно найти на нашем web-сервере.

1.1. Возможности DataparkSearch

Основные возможности DataparkSearch:

  • Поддержка MySQL (требуется библиотека libz), PostgreSQL, iODBC, unixODBC, EasySoft ODBC-ODBC bridge, InterBase, Oracle (см. Разд. 5.5), MS SQL SQL-серверов.

  • Поддержка HTTP.

  • Поддержка HTTP-прокси.

  • Поддержка HTTPS.

  • Поддержка FTP.

  • Поддежка NNTP (обе схемы URL news:// и nntp://).

  • Виртуальная схема URL htdb://. Позволяет индексировать и искать по большим текстовым/блобовым полям SQL-баз данных.

  • Возможности зеркалирования.

  • Встроенная поддержка text/html, text/xml, text/plain, audio/mpeg (MP3) и image/gif.

  • Поддержка внешних парсеров для остальных типов документов.

  • Возможность индексировать мультиязычные сайты используя механизм согласования содержимого.

  • Нечёткий поиск на основе синонимов, акронимов и аббревиатур и всех форм (включая корректировку правописания) слов из поисковых запросов.

  • Поддержка Basic-авторизации. Позволяет индекировать интранет сервера, защищенные паролем.

  • Proxy authorization support.

  • Реентерабельность. Возможно выполнять одновременно несколько процессов индексирования и/или поиска по одной и тоже базе. Поддержка многопоточночти.

  • Поддержка стоп-листов.

  • Поддержка <META NAME="robots" content="..."> и robots.txt.

  • Интерфейсы и фронтэнды на C .

  • Поддержка логических запросов.

  • Испольщзование синонимов и словоформ для улучшения результатов поиска.

  • Сортировка документов по релевантности, популярности, дфте последнего изменения и по важности (произведению релевантности и популярности).

  • Поддержка почти всех популярных в Интерете кодировок, включая Восточно-Азиатские мультибайтные и UTF8.

  • Поддержка HTML шаблонов для гибкой настройки вывода результатов поиска.

  • Расширенные возможности поиска: тэги, категории, лимиты по времени и т.д.

  • Возможность разбиения на отдельные слова фраз японского, корейского, китайского и тайского языков.

  • Поиск без учёта акцентов символов.

  • mod_dpsearch - модуль для веб-сервера Apache.

  • Поддержка доменных имён в национальных кдировках (Internationalized Domain Names).

  • Алгоритм автоматического построения рефератов (SEA).


Geo Visitors Map who's online