Полнота поиска в Рамблер

Полнота представляет собой отношение количества найденных по запросу документов к общему числу документов в Интернете, удовлетворяющих данному запросу. Например, если в сети Интернет имеется 100 страниц, содержащих словосочетание "Красная площадь", а по соответствующему запросу было найдено всего 70 из них, то полнота поиска будет 0,7. Вероятность того, что пользователь не сможет найти нужный ему документ, при условии, что он вообще существует в Интернете, зависит от полноты поиска. Полнота поиска в Рамблер в большей мере зависит от работы системы сбора и обработки информации. В связи с постоянным ростом количества документов в сети, эта система в первую очередь должна быть масштабируемой.

В Рамблере масштабируемость достигается за счет параллельного исполнения задачи произвольным количеством машин. На нескольких машинах, выполняющих свое установленное задание, размещается робот-паук, который обходит страницы с заданными URL и скачивает их в базу данных, а затем архивирует и перекладывает в хранилище суточными порциями. Задачи у робота могут быть разные: на одной машине он может скачивать новые страницы, которые еще не были известны поисковой системе, а на другой – страницы, которые ранее уже были скачаны не менее месяца, но и не более года назад. Хранилище у всех машин едино. С помощью параллельной работы программы можно разбить список URL на 10 частей и раздать их 10 машинам, что позволит легко выдерживать дополнительную нагрузку, которая возникает при увеличении количества страниц, посещаемых роботом.

В хранилище информация в сжатом виде собирается и разбивается на куски по 50 Мб. Эти части постепенно распределяются между 70 машинами, на которых запущена программа-индексатор. Обработав часть страниц, индексатор обращается за следующей порцией. В результате формируется много маленьких индексных баз, каждая из которых содержит информацию о некоторой части Интернета. Ускорение процесса индексации достигается простым добавлением машин в систему. После обработки всех частей информации начинается объединение результатов.

Процедура объединения является простой и быстрой операцией, не требующей никаких дополнительных модификаций частичных индексов за счет одинакового формата основной и индексных баз. Основная база участвует в анализе как одна из частей нового индекса. Так, если объединяются 70 новых частей, то в анализе участвует 71 фрагмент (70 новых + основная база предыдущей редакции). Кроме того, единый формат позволяет проводить тестирование частичных баз еще до объединения их с основной, и обнаруживать ошибки на более раннем этапе.

Таблицы перенумерации документов базы составляет специальная программа “сливатор”. Среди страниц с одинаковыми адресами выбирается наиболее свежая версия, параллельно осуществляется склейка дублей. Сборка единой базы из частичных индексных баз представляет собой простой и быстрый процесс. Сопоставление страниц происходит со скоростью чтения данных с диска.

При большом количестве информации процедура “сливания” частей происходит в несколько этапов:

– вначале частичные индексы объединяются в несколько промежуточных баз;

– промежуточные базы и основная база предыдущей редакции пересекаются.

Процесс объединения промежуточных баз может состоять из нескольких этапов, но это практически не влияет на скорость формирования единого индекса и не отражается на качестве результатов.

Об авторе

Автор статьи: Владимир Козека.
Вид работ: рерайтинг.
Стоимость работ: по договорённости.
Предпочитаемые тематики: любые.

Для заказа статей можно обращаться по контактным данным:
e-mail: k.vladimir3@gmail.com
ICQ: 258-649-314

Ссылка на эту страницу:
(поставьте на своём сайте/блоге, чтобы повысить свою статью в поисковых системах)

<a href="https://statiami.com/s/internet/polnota-poiska-v-rambler.php" target="_blank">Полнота поиска в Рамблер</a>

Автор: homester
Просмотров: 3690
Слов: 512
Рейтинг: Нет оценки

Читайте также на нашем сайте:

Последние статьи

IPhone SE (2022)

Отбеливание зубов Одинцово

Реклама в Телеграмм

Сервисный центр: Профессиональная помощь при замене разбитого дисплея iPhone

Будут ли полезны финансовые курсы бухгалтеру или руководителю

Агентство по созданию и продвижению сайтов “НастАртВЕБ”: Ваш надежный партнер в мире онлайн-маркетинга

Вентиляционное оборудование от Фриз-Холод

BBaza: доска бизнес-объявлений для эффективного продвижения и развития вашего бизнеса

Что такое служба помощи призывникам?

Услуги по контекстной рекламе от Creative

Коммерческая недвижимость в Энгельсе (аренда)

Какими качествами обладает масло 75W140