|
|
3.6. Указание веб-пространства для индексированияКаждый раз когда indexer добавляет новую ссылку или выбирает очередную ссылку для индексирования, он сначала проверяет, задана ли в indexer.conf для этой ссылки команда Server, Realm или Subnet. Ссылки, не имеющие ни одной такой соответсвующей им команде не добавляются в базу, а если же такие ссылки уже находятся в базе данных (например, после удаления одной из команд Server, Realm или Subnet из файла indexer.conf), то они удаляются при очередной попытке их индексации. Эти команды имеют один обязательный параметр pattern и шесть необязательных: method, subsection, CaseType, MatchType, CmpType и Alias. Формат этих команд: [Server | Realm | Subnet] [method] [subsection] [CaseType] [MatchType] [CmpType] pattern [alias] Обязательный параметр pattern задаёт либо URL, либо его фргамент, или шаблон для сравнения. Значение параметра subsection должно быть одним из page, path, site, world и по умолчанию используется значение path.
Необязательный параметр CaseType задаёт чувствительность к регистру при сравнении строк, может принимать значения case - нувствительное к регистру сравнение, и nocase - чувствительное сравнение. Необязятельный параметр CmpType узазывает тип сравнения и может принимать значения Regex и String. Типа сравнения String означает сравнение строкового шаблона и используется по умолчанию. В параметре pattern Вы можете использовать символы ? и *, они обозначают "один символ" и "любое число символов" соответсвенно. Например, если Вы хотите описать все HTTP сайты в домене .ru, используйте эту команду: Realm http://*.ru/* Сравнение как регулярных выражений производится если указан параметр Regex. Например, Вы можете описать все HTTP сервера домена .ru, используя регулярное выражение: Realm Regex ^http://.*\.ru/ Необязательный параметр MatchType определяет тип совпадения. Для этого параметра могут указываться два значения: Match и NoMatch, по умолчанию используется значение Match. Команда Realm NoMatch имеет обратный эффект. Это обозначает, что URL, не попадающий под указанный pattern, будет соответствовать этой команде Realm. Например, используйте эту команду для индексирования любых документов, за исключением .com доменов: Realm NoMatch http://*.com/* Необязательный параметр alias позволяет организовать сложный механизм замены URL, нежели предоставляет механизм алиасов. Смотрете Разд. 3.7 для объяснения использования параметра alias. Alias работает только с типом сравнения Regex, и не даёт никакого эффекта при типе сравнении String. Необязательный параметр method в командах Server, Realm и Subnet описывает действие, которое будет произведено с документами, соответствующими его команде и может принимать значения Allow, Disallow, HrefOnly, CheckOnly, Skip, CheckMP3, CheckMP3Only. Значением по-умолчанию является Allow.
3.6.1. Команда ServerЭто основная команда в файле indexer.conf. Она используется для описания веб-пространства для индексирования в виде серверов и их частей, а также добавляет заданый URL, указанный в качестве обязательного параметра pattern в базу при старте indexer для использования его в качестве стартовой точки. Например, команда Server http://localhost/ разрешает индексировать документы сервера http://localhost/. Также, indexer вставляет документ с адресом http://localhost/ в базу данных. Вы также можете задать некоторый подкаталог для индексирования только части сервера: Server http://localhost/subsection/. И эта команда также добавляет аргумент в базу данных для использования его в качестве стартовой точки индексирования.
3.6.2. Команда RealmКоманда Realm обладает более гибкими возможностями указания веб-пространства для индексирования. Эта команда работает почти также как и команда Server, однако отличается от нее тем, что:
3.6.3. Команда SubnetКоманда Subnet предоставляет другой способ задания веб-пространства для индексирования. Она работает аналогично команде Server, с тем отличием, что указанный текстовый шаблон сравнивается не с URL, а с IP-адресом, соответствующим проверяемому URL. Параметр pattern для этой команды может содержать символы * и ?, обозначающие "один символ" и "любое число сиволов" соответственно, или же задаваться в виде сети в CIDR формате (a.b.c.d/m, a.b.c, a.b, a). Например, если нужно описать все HTTP сайты локальной подсети, используйте следующую команду: Subnet 192.168.*.* Subnet 192.168.10.0/24 Вы можете использовать необязательный параметр MatchType, работающий так же, как и аналогичный у команды Realm. Например, если Вы хотите индексировать все, за исключением подсети 195.x.x.x, используйте: Subnet NoMatch 195.*.*.* 3.6.4. Использование различным параметров для сервера и его подсекцийIndexer перебирает команды Server и Realm в том порядке, в каком они указаны в файле конфигурации. Таким образом, если Вы хотите задать различные параметры, например, для всего сервера и некоторых его подсекций, Вы должны добавить строки для секций до строк, относящихся к серверу целиком. Представим, что на Вашем сервере есть директория, содержащая страницы с новостями. Очевидно, эти страницы необходимо переиндексировать чаще, нежели остальные части содержимого сервера. Следующая последовательность команд может быть полезна в этом случае: # Add subsection Period 200000 Server http://servername/news/ # Add server Period 600000 Server http://servername/ Эти команды задают другой период переиндексирования для поддиректории /news/ в отличие от периода индексирования остального сервера. indexer выбирет первую команду Server для http://servername/news/page1.html т.к. это первая соответсвующая URL команда Server. 3.6.5. Использование indexer -f <filename>The third scheme is very useful for indexer -i -f url.txt running. You may maintain required servers in the url.txt. When new URL is added into url.txt indexer will index the server of this URL during next startup. 3.6.6. Команды ServerDB, RealmDB, SubnetDB и URLDBURLDB pgsql://foo:bar@localhost/portal/links?field=url Эти команды аналогичны командам Server, Realm, Subnet и URLсоответственно, но аргументы для вставки в базу выбираются из указанного поля SQL-таблицы. В примере выше ссылки выбираются из базы portal, SQL-таблицы links и поля url. 3.6.7. Команда URLURL http://localhost/path/to/page.html Эта команда добавляет указаный URL в базу. Это полезно когда нужно добавить несколько стартовых точек для одного сервера. Не имеет эффекта, если указываемый URL уже находится в базе.
|
||||||||||||