Поисковая машина "Quest" работает на PHP
Новая версия индексатора "QuestCrawler" переписана заново на языке PHP. Теперь для работы поисковой машины необходим интерпретатор языка PHP с установленным пакетом PEAR::HTTP_Request и база данных MySQL.
Новые возможности поисковой машины
В ходе разработки новой версии поискового робота, был внедрен новый алгоритм подсчета релевантности документа на основании веса лемм.Вес определённой леммы не является постоянным свойством, он изменяется при каждой последующей переиндексации документа. С каждой новой итерацией вес пересчитывается и стремится к более точному результату.
Подсчет веса лемм
Вес каждой леммы зависит от многих факторов, как внутренних так и внешних.Внутренние факторы
Под внутренними факторами имеется в виду наличие слова в заголовке документа, в мета-описаниях, ключевых словах, структурных заголовках (h1, h2, h3...), берется во внимание также и выделение слов при помощи тегов <strong>, <em>, <b>, <i>, учитывается местонахождение слова относительно начала документа, чем ближе к началу — тем слово важнее.Плюсом к абсолютному весу леммы является использование ключевого слова в качестве текста ссылки и описания к изображению. Значительным фактором является и присутствие леммы в первом абзаце текста, который следует после структурного заголовка.
Внешние факторы
Каждый сайт состоит из множества страниц, документов. И каждая лемма имеет свой определенный абсолютный вес в этом документе, который подсчитывается с использованием внутренних факторов. На основании абсолютного веса и множества лемм, которое входит в этот документ исчисляется относительный вес слова.Для подсчета выверенного веса слова или леммы используются такие величины как общее количество документов в коллекции и общее количество лемм в коллекции. Таким образом, при добавлении нового документа, изменении уже существующего или удалении система реагирует на изменение данных и автоматически при следующих переиндексациях проводит пересчет весов.
Технические требования
Технические требования к поисковому роботу значительно снизились, теперь для установки и запуска робота желателен только один пакет — PEAR::HTTP_Request. Хотя его наличие не обязательно. Он используется для корректной передачи HTTP-заголовков, таких как HTTP-Referer и User-Agent.С помощью системы статистики, на основании данных переданных роботом, можно будет отследить его работу: в какой последовательности были проиндексированы страницы, когда, сколько времени ушло на полную индексацию сайта. И на основании этих данных можно будет отсеивать хиты сгенирированные роботом.
Дата публикации: 26.02.2007
