RiSearch

Поисковый скрипт

        English / Russian

Введение
Инсталляция
Системные
требования

Производительность
Язык запросов
Пользователи
Кодировки
ЧаВо
Планы
Форум
  Инсталляция   Настройка   Известные проблемы

Настройка

      Все конфигурационные параметры находятся в файле config.pl. Назначение большинства параметров достаточно очевидно и не требует пояснений.

  1.  $base_dir = ".";  - путь к директории, где расположены Ваши html файлы. Если index.pl расположен в той же директории, оставьте этот параметр как есть. Учтите, что здесь и далее надо указывать либо относительный путь к файлу, либо полный, начиная с корня файловой системы (а не корневого каталога вебсервера).

  2.  $base_url = "http://www.server.com/";  - URL Вашего сайта.

  3.  $site_size = 2;  - данный параметр регулирует размер базы данных и эффективность скрипта.

  4.  $file_ext = 'html txt htm shtml php';  - список расширений файлов, которые надо индексировать.

  5.  $non_parse_ext = 'txt';  - список расширений файлов, в которых не требуется удаление HTML тегов.

  6.  $no_index_dir = 'img image temp tmp cgi-bin';  - директории, которые не нужно индексировать. Встретив директорию с таким именем, скрипт не будет сканировать ни эту директорию, ни все ее поддиректории.

  7.  $zone[1] = 'dir1';  - описание разделов сайта. Допускается неограниченное количество разделов. Каждый раздел должен иметь уникальный номер. Для поиска по данному разделу форма поиска должна отправить скрипту дополнительный параметр с именем "z" и значением, соответствующим номеру нужного раздела. Для этого можно использовать переключатели (checkbox), радио-кнопки (radio) или списки (select). Пример приведен в файле "template.htm". При использовании переключателей или списка с атрибутом multiple возможно выбрать несколько разделов одновременно. При этом поиск ведется по всем выбранным разделам. Для поиска по всему сайту параметр "z" должен быть равен нулю либо вообще не посылаться.

    Если один раздел сайта находится в нескольких различных директориях, разделите их вертикальной чертой без пробела ( $zone[1] = 'dir2|dir3'; ).

  8.  $numbers = '0-9';  - скрипт вырезает их файла все небуквенные символы и индексирует только то, что останется. Кроме символов латинского алфавита, скрипт оставляет символы национальных алфавитов (описаны ниже). В параметре $numbers Вы можете указать, какие еще символы должны индексироваться (например цифры, символ подчеркивания и т.д.)

  9.  $use_selective_indexing = "NO";  - данная опция полезна при индексировании больших сайтов со сложной навигацией, новостными колонками и прочими элементами дизайна, которые появляются почти на каждой странице сайта и не должны индексироваться. Она позволяет указать индексирующему скрипту фрагменты кода, которые должны быть вырезаны в процессе анализа страницы. Для этого необходимо включить эту опцию ("YES") и раскомментировать нижеследующие строки в "config.pl".

     %no_index_strings = (
      q[<!-- No index start 1 -->] => q[<!-- No index end 1 -->],
      q[<!-- No index start 2 -->] => q[<!-- No index end 2 -->],
     );

    Внутри квадратных скобок необходимо указать две строки. Все, что находится в индексируемом файле между этими строками, будет вырезано (учтите, что если данные строки встречаются несколько раз, будет обработан каждый случай). В HTML файлах для этих целей можно использовать специальные метки, которые разделяют элементы дизайна (либо любые строки, которые однозначно определяют нужное место).

  10.  $cut_default_filenames = 'YES';  - позволяет вырезать имя файла (например "index.html") из URL в результатах поиска.

  11.  $INDEXING_SCHEME = 2;  - способ индексирования слов. При значении "1" индекс составляется на основе всего слова. Этот способ обеспечивает наиболее быстрый поиск, но будут найдены только слова точно соответствующие запросу. Может быть полезно для очень больших сайтов.

    При значении "2" индекс составляется по началу слова (используется первые 4 буквы). В этом случае скрипт найдет все слова, которые начинаются с указанной подстроки. Например, по запросу "город" будут найдены слова: "город", "городок", "городской", "городовой".

    При значении "3" в индекс заносятся все возможные подстроки длиной 4 символа. Это позволяет искать по середине или окончанию слова, но и время поиска и размер базы данных несколько увеличиваются. В вышеприведенном случае дополнительно будут найдены слова "пригород", "благородный", "огород".

  12.  $use_stop_words = "YES";  - список слов, которые не надо индексировать.

  13.  $descr_size = 256;  - длина описания файла в результатах поиска (можно использовать либо начало HTML файла, либо содержимое тега "META description").

  14.  $CAP_LETTERS = '\xC0-\xDF\xA8';  - укажите код заглавных букв Вашего языка (тех, которые отличаются от латинских). Сделайте то же самое для строчных букв.

  15. Файл config.pl содержит несколько других параметров, которые документированы в самом файле.

Использование робота-паука

      Робот-паук использует все вышеописанные параметры (за исключением  $base_dir  и  $base_url . Вам необходимо установить всего две дополнительные переменные.

  1.  @start_url  - Список УРЛ, с которых начнется индексирование.

  2.  @allow_url  - Скрипт будет индексировать только файлы в указанных серверах.

      Если необходимо исключить директорию из индексирования, используйте $no_index_dir параметр (этот параметр един для всех серверов в списке @allow_url).

Использование шаблонов

      В новой версии скрипта используются шаблоны для изменения дизайна вывода результатов поиска. Шаблон размещен в файле "template.htm". Это обычный HTML файл, Вы можете открыть его в любом броузере и посмотреть, как будет выглядеть Ваша страница, и при желании изменить дизайн по своему усмотрению.

      Шаблон состоит из нескольких секций: "header" и "footer" будут выводиться всегда в начале и конце страницы; "results_header", "results" и "results_footer" выводятся при успешном поиске; "no_results" выводится, если поиск дал нулевой результат; "empty_query" выводится при пустом запросе.

      Каждая секция шаблона разделена метками вроде этой:

 <!-- RiSearch::header::start --> 
Вы можете редактировать все, что находится между двумя разделителями.

      В шаблоне используется несколько предопределенных параметров, на место которых будет подставлен результат выполнения скрипта. Вот полный список параметров:

  1.  %query%  - запрос.

  2.  %search_time%  - время выполнения скрипта.

  3.  %query_statistics%  - статистика найденных слов (т.е. строка вида - "слово1-N1 слово2-N2").

  4.  %stpos%  - порядковый номер, с которого начинаются результаты на данной странице.

  5.  %url%, %title%, %size%, %description%  - URL найденного файла, его заголовок, размер и описание.

  6.  %rescount%  - общее число найденных файлов.

  7.  %next_results%  - линки на следующие страницы с результатами поиска.

  8.  %rand_number%  - случайное число в пределах от нуля до 256. Можно использовать в кодах баннерных систем (число фиксировано в пределах секции, но генерируется заново для каждой секции).

  9.  %right_form("файл","файла","файлов")%  - данный параметр предназначен для русскоязычных сайтов. Он выводит на страницу необходимую форму слова, в соответствии в числом найденных файлов. Вы можете заменить слово "файл" любым другим словом, только соблюдайте такой же порядок форм (например: %right_form("совпадение","совпадения","совпадений")% ).



Введение | Инсталляция | Системные требования | Производительность | Язык запросов | ЧаВо | Планы | Форум

Home: http://www.alooks.ru/ Sergej Tarasov, © 2010.