Главная / Новости / Поисковая машина "Quest" работает на PHP

Поисковая машина "Quest" работает на PHP

Новая версия индексатора "QuestCrawler" переписана заново на языке PHP. Теперь для работы поисковой машины необходим интерпретатор языка PHP с установленным пакетом PEAR::HTTP_Request и база данных MySQL.  

Новые возможности поисковой машины

В ходе разработки новой версии поискового робота, был внедрен новый алгоритм подсчета релевантности документа на основании веса лемм.
Вес определённой леммы не является постоянным свойством, он изменяется при каждой последующей переиндексации документа. С каждой новой итерацией вес пересчитывается и стремится к более точному результату.

Подсчет веса лемм

Вес каждой леммы зависит от многих факторов, как внутренних так и внешних.

Внутренние факторы

Под внутренними факторами имеется в виду наличие слова в заголовке документа, в мета-описаниях, ключевых словах, структурных заголовках (h1, h2, h3...), берется во внимание также и выделение слов при помощи тегов <strong>, <em>, <b>, <i>, учитывается местонахождение слова относительно начала документа, чем ближе к началу — тем слово важнее.
Плюсом к абсолютному весу леммы является использование ключевого слова в качестве текста ссылки и описания к изображению. Значительным фактором является и присутствие леммы в первом абзаце текста, который следует после структурного заголовка.

Внешние факторы

Каждый сайт состоит из множества страниц, документов. И каждая лемма имеет свой определенный абсолютный вес в этом документе, который подсчитывается с использованием внутренних факторов. На основании абсолютного веса и множества лемм, которое входит в этот документ исчисляется относительный вес слова.
Для подсчета выверенного веса слова или леммы используются такие величины как общее количество документов в коллекции и общее количество лемм в коллекции. Таким образом, при добавлении нового документа, изменении уже существующего или удалении система реагирует на изменение данных и автоматически при следующих переиндексациях проводит пересчет весов.

Технические требования

Технические требования к поисковому роботу значительно снизились, теперь для установки и запуска робота желателен только один пакет — PEAR::HTTP_Request. Хотя его наличие не обязательно. Он используется для корректной передачи HTTP-заголовков, таких как HTTP-Referer и User-Agent.
С помощью системы статистики, на основании данных переданных роботом, можно будет отследить его работу: в какой последовательности были проиндексированы страницы, когда, сколько времени ушло на полную индексацию сайта. И на основании этих данных можно будет отсеивать хиты сгенирированные роботом.



Дата публикации: 26.02.2007
www.ideil.com — новая версия нашего сайта. Сейчас вы находитесь на v1.ideil.com — первой версии нашего сайта. Эта версия полностью функциональна, сохранены все страницы и публикации. Для ознакомления с нашими работами, клиентами, услугами — пользуйтесь новой версией веб-сайта — www.ideil.com