Роботы поисковой системы (они же кроулеры и пауки) что это такое и с чем его едят?
Из-за всей шумихи поднятой вокруг поисковой оптимизации и иже с ними многим кажется, что пауки это такие полубоги, которые только что амброзию не едят. Когда к счастью, но чаще всего, к сожалению это не так. Роботы поисковой системы обладают лишь базовыми функциями браузеров и очень многого не могут. Они не воспринимают фреймов, флеша, изображений (их смысловой нагрузки) или джавы.
Как же тогда это работает?
Нимб с краулеров сорван теперь самое время пояснить, что поисковый робот это лишь автоматизированный сборщик информации. Так что встаем с колен, прекращаем молиться, и идем к ближайшему поисковику на страницу «добавить URL» и следим, что будет происходить после ввода адреса в соответствующее поле. Ну, естественно адресок полежит денек-другой в очереди, а лишь затем, когда одному из роботов надоест домино и пасьянсы он решится пойти проверить, что такое добавили. Первым делом, придя на сайт, наш паук ищет файл robots.txt в котором записано что ему не следует индексировать, если такого файла нет, индексируется все подряд. Кстати если ты не добавлял сайт, а он проиндексирован то знай, не мольбы помогли, а ссылка с другого сайта которую или ты или кто-то из знакомых оставили в приступе прозрения. Проверить какие же страницы сайта добавлены, а какие нет можно посмотреть в логах сервера, или в их статистической обработке. Некоторые роботы легко опознаются по названию, например робот гугла–"Googlebot" другие же более скрытны, например робот Inktomi– "Slurp", иногда за робота можно принять даже браузер под управлением человека или же наоборот принять краулера за браузер.
Итак, потолок пробит головой от радости, что сайт добавлен в базу, что же дальше?
А дальше от тебя уже ничего уже, увы, не зависит. Только и остается грызть ногти. Когда пользователь вводит запрос в дело вступают алгоритмы написанные инженерами поисковых систем. Согласно этим самым алгоритмам проходит расчет наиболее релевантных результатов, которые и выдаются страждущим по информации. Так, если Вы ищите информацию о том, как создать виртуальный офис http://uiscom.ru/virtuozz/virtoffice.php, Вы обязательно найдёте сайт uiscom.ru.
Как уже было сказано поисковые роботы не воспринимают очень многое, как же в таком случае они читают страницы сайта?
В первую очередь робот смотрит видимый ему текст, затем содержимое гиперссылок и уже на основании этого решает о чем страница. И только затем дает запись в базу. Пауки сделаны довольно упрямыми и если ты уронил сервер с сайтом ну или на сайт ломится много народа и роботу просто не пробиться краулер попросту попробует зайти позже. Естественно не рационально использовать один робот для всего поэтому для проверки доступности используются специальные роботы– «дятлы».
Естественно на вышеперечисленном функции роботов не заканчиваются так же роботы к примеру постоянно проверяют была ли обновлена страница и обладает ли база последней информацией о ней.