Раскрутка сайта статьями, покупка контента, выбор дешёвого надежного хостинга

Как заработать на сайте
Как заработать на Sape
Как заработать копирайтингом
Как заработать рерайтингом





Информация



Статьи » Заработок в Интернете » Полнота поиска в Рамблер

Полнота поиска в Рамблер


Полнота представляет собой отношение количества найденных по запросу документов к общему числу документов в Интернете, удовлетворяющих данному запросу. Например, если в сети Интернет имеется 100 страниц, содержащих словосочетание "Красная площадь", а по соответствующему запросу было найдено всего 70 из них, то полнота поиска будет 0,7. Вероятность того, что пользователь не сможет найти нужный ему документ, при условии, что он вообще существует в Интернете, зависит от полноты поиска. Полнота поиска в Рамблер в большей мере зависит от работы системы сбора и обработки информации. В связи с постоянным ростом количества документов в сети, эта система в первую очередь должна быть масштабируемой.

 

В Рамблере масштабируемость достигается за счет параллельного исполнения задачи произвольным количеством машин. На нескольких машинах, выполняющих свое установленное задание, размещается робот-паук, который обходит страницы с заданными URL и скачивает их в базу данных, а затем архивирует и перекладывает в хранилище суточными порциями. Задачи у робота могут быть разные: на одной машине он может скачивать новые страницы, которые еще не были известны поисковой системе, а на другой – страницы, которые ранее уже были скачаны не менее месяца, но и не более года назад. Хранилище у всех машин едино. С помощью параллельной работы программы можно разбить список URL на 10 частей и раздать их 10 машинам, что позволит легко выдерживать дополнительную нагрузку, которая возникает при увеличении количества страниц, посещаемых роботом.

 

В хранилище информация в сжатом виде собирается и разбивается на куски по 50 Мб. Эти части постепенно распределяются между 70 машинами, на которых запущена программа-индексатор. Обработав часть страниц, индексатор обращается за следующей порцией. В результате формируется много маленьких индексных баз, каждая из которых содержит информацию о некоторой части Интернета. Ускорение процесса индексации достигается простым добавлением машин в систему. После обработки всех частей информации начинается объединение результатов.

 

Процедура объединения является простой и быстрой операцией, не требующей никаких дополнительных модификаций частичных индексов за счет одинакового формата основной и индексных баз. Основная база участвует в анализе как одна из частей нового индекса. Так, если объединяются 70 новых частей, то в анализе участвует 71 фрагмент (70 новых + основная база предыдущей редакции). Кроме того, единый формат позволяет проводить тестирование частичных баз еще до объединения их с основной, и обнаруживать ошибки на более раннем этапе.

 

Таблицы перенумерации документов базы составляет специальная программа “сливатор”. Среди страниц с одинаковыми адресами выбирается наиболее свежая версия, параллельно осуществляется склейка дублей. Сборка единой базы из частичных индексных баз представляет собой простой и быстрый процесс. Сопоставление страниц происходит со скоростью чтения данных с диска.

 

 При большом количестве информации процедура “сливания” частей происходит в несколько этапов:  

 – вначале частичные индексы объединяются в несколько промежуточных баз;  

 – промежуточные базы и основная база предыдущей редакции пересекаются.

  

Процесс объединения промежуточных баз может состоять из нескольких этапов, но это практически не влияет на скорость формирования единого индекса и не отражается на качестве результатов.


Об авторе

Автор статьи: Владимир Козека.
Вид работ: рерайтинг.
Стоимость работ: по договорённости.
Предпочитаемые тематики: любые.

Для заказа статей можно обращаться по контактным данным:
e-mail: k.vladimir3@gmail.com
ICQ: 258-649-314


Ссылка на эту страницу:
(поставьте на своём сайте/блоге, чтобы повысить свою статью в поисковых системах)

Автор: homester
Просмотров: 2754
Слов: 512
Рейтинг: Нет оценки





Читайте также на нашем сайте:














Последние статьи


Квадрокоптер DJI Phantom 4 с Full HD / 4К камерой.

Грамотный подбор ключевых слов

Широкоформатная печать в Киеве на стуйных, фотонных, термотрансферных и электрографических принтерах с использованием различных материалов

Продвижение сайта: платная раскрутка

Накрутка подписчиков в Инстаграме

Сделать свой сайт – лишь начало продвижения в сети

Подводные камни узкопрофильного копирайтинга на примере медицинской тематики

Создание сайтов в Киеве

Особенности продвижения в Google

Привлечение клиентов через интернет

Как заказчик сам себе мешает продвигать сайт

КОНКУРС ДЛЯ YOUTUBE-БЛОГЕРОВ









© 2007-2017 Statiami.com
Копирование без прямой обратной ссылки запрещено!