Статьи » Заработок в Интернете » Полнота поиска в Рамблер
Полнота поиска в Рамблер
Полнота представляет собой отношение количества найденных по запросу документов к общему числу документов в Интернете, удовлетворяющих данному запросу. Например, если в сети Интернет имеется 100 страниц, содержащих словосочетание "Красная площадь", а по соответствующему запросу было найдено всего 70 из них, то полнота поиска будет 0,7. Вероятность того, что пользователь не сможет найти нужный ему документ, при условии, что он вообще существует в Интернете, зависит от полноты поиска. Полнота поиска в Рамблер в большей мере зависит от работы системы сбора и обработки информации. В связи с постоянным ростом количества документов в сети, эта система в первую очередь должна быть масштабируемой.
В Рамблере масштабируемость достигается за счет параллельного исполнения задачи произвольным количеством машин. На нескольких машинах, выполняющих свое установленное задание, размещается робот-паук, который обходит страницы с заданными URL и скачивает их в базу данных, а затем архивирует и перекладывает в хранилище суточными порциями. Задачи у робота могут быть разные: на одной машине он может скачивать новые страницы, которые еще не были известны поисковой системе, а на другой – страницы, которые ранее уже были скачаны не менее месяца, но и не более года назад. Хранилище у всех машин едино. С помощью параллельной работы программы можно разбить список URL на 10 частей и раздать их 10 машинам, что позволит легко выдерживать дополнительную нагрузку, которая возникает при увеличении количества страниц, посещаемых роботом.
В хранилище информация в сжатом виде собирается и разбивается на куски по 50 Мб. Эти части постепенно распределяются между 70 машинами, на которых запущена программа-индексатор. Обработав часть страниц, индексатор обращается за следующей порцией. В результате формируется много маленьких индексных баз, каждая из которых содержит информацию о некоторой части Интернета. Ускорение процесса индексации достигается простым добавлением машин в систему. После обработки всех частей информации начинается объединение результатов.
Процедура объединения является простой и быстрой операцией, не требующей никаких дополнительных модификаций частичных индексов за счет одинакового формата основной и индексных баз. Основная база участвует в анализе как одна из частей нового индекса. Так, если объединяются 70 новых частей, то в анализе участвует 71 фрагмент (70 новых + основная база предыдущей редакции). Кроме того, единый формат позволяет проводить тестирование частичных баз еще до объединения их с основной, и обнаруживать ошибки на более раннем этапе.
Таблицы перенумерации документов базы составляет специальная программа “сливатор”. Среди страниц с одинаковыми адресами выбирается наиболее свежая версия, параллельно осуществляется склейка дублей. Сборка единой базы из частичных индексных баз представляет собой простой и быстрый процесс. Сопоставление страниц происходит со скоростью чтения данных с диска. При большом количестве информации процедура “сливания” частей происходит в несколько этапов:
– вначале частичные индексы объединяются в несколько промежуточных баз;
– промежуточные базы и основная база предыдущей редакции пересекаются.
Процесс объединения промежуточных баз может состоять из нескольких этапов, но это практически не влияет на скорость формирования единого индекса и не отражается на качестве результатов.
Об авторе
Автор статьи: Владимир Козека. Вид работ: рерайтинг. Стоимость работ: по договорённости. Предпочитаемые тематики: любые.
Для заказа статей можно обращаться по контактным данным: e-mail: k.vladimir3@gmail.com ICQ: 258-649-314
Ссылка на эту страницу: (поставьте на своём сайте/блоге, чтобы повысить свою статью в поисковых системах)
Автор: homester
Просмотров: 3690
Слов: 512
Рейтинг: Нет оценки
Читайте также на нашем сайте:
|