Поисковый робот яндекс что учитывает. Поисковые роботы — роботы поисковых систем. Поисковой робот Google

Роботы-пауки у поисковых машин - это интернет-боты, в задачу которых входит систематический просмотр страниц в World Wide Web для обеспечения веб-индексации. Традиционно сканирование WWW-пространства осуществляется для того, чтобы обновить информацию о размещенном в сети контенте с целью предоставления пользователям актуальных данных о содержимом того или иного ресурса. О типах поисковых роботов и их особенностях и будет идти речь в данной статье.

Поисковые пауки могут именоваться еще и по-другому: роботы, веб-пауки, краулеры. Однако независимо от названия, все они заняты постоянным и непрерывным изучением содержимого виртуального пространства. Робот сохраняет список URL-адресов, документы по которым загружаются на регулярной основе. Если в процессе индексации паук находит новую ссылку, она добавляется в этот список.

Таким образом, действия краулера можно сравнить с обычным человеком за браузером. С тем лишь отличием, что мы открываем только интересные нам ссылки, а робот - все, о которых имеет информацию. Кроме того, робот, ознакомившись с содержимым проиндексированной страницы, передает данные о ней в специальном виде на сервера поисковой машины для хранения до момента запроса со стороны пользователя.

При этом каждый робот выполняет свою определенную задачу: какие-то индексируют текстовое содержимое, какие-то - графику, а третьи сохраняют контент в архиве и т.д.

Главная задача поисковых систем - создание алгоритма, который позволит получать информацию о быстро и наиболее полно, ведь даже у гигантов поиска нет возможностей обеспечить всеобъемлющий процесс сканирования. Поэтому каждая компания предлагает роботам уникальные математические формулы, повинуясь которым бот и выбирает страницу для посещения на следующем шаге. Это, вкупе с алгоритмами ранжирования, является одним из важнейших критериев по которым пользователи выбирают поисковую систему: где информация о сайтах более полная, свежая и полезная.

Робот-поисковик может не узнать о вашем сайте, если на него не ведут ссылки (что возможно редко - сегодня уже после регистрации доменного имени упоминания о нем обнаруживаются в сети). Если же ссылок нет, необходимо рассказать о нем поисковой системе. Для этого, как правило, используются «личные кабинеты» веб-мастеров.

Какая главная задача поисковых роботов

Как бы нам ни хотелось, но главная задача поискового робота состоит совсем не в том, чтобы рассказать миру о существовании нашего сайта. Сформулировать ее сложно, но все же, исходя из того, что поисковые системы работают лишь благодаря своим клиентам, то есть пользователям, робот должен обеспечить оперативный поиск и индексацию размещенных в сети данных . Только это позволяет ПС удовлетворить потребность аудитории в актуальной и релевантной запросам выдаче.

Конечно, роботы не могут проиндексировать 100% веб-сайтов. Согласно исследованиям, количество загруженных лидерами поиска страниц не превышает 70% от общего числа URL, размещенных в интернете. Однако то, насколько полно ваш ресурс изучен ботом, повлияет и на количество пользователей, перешедших по запросам из поиска. Поэтому и мучаются оптимизаторы в попытках «прикормить» робота, чтобы как можно быстрее знакомить его с изменениями.

В Рунете Яндекс лишь в 2016 году подвинулся на вторую строчку по охвату месячной аудитории, уступив Google. Поэтому не удивительно, что у него наибольшее количество пауков, изучающих пространство, среди отечественных ПС. Перечислять их полный список бессмысленно: его можно увидеть в разделе «Помощь вебмастеру» > Управление поисковым роботом > Как проверить, что робот принадлежит Яндексу.

Все краулеры поисковика обладают строго регламентированным user-agent. Среди тех, с которыми обязательно придется встретиться сайтостроителю:

  • Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) - основной индексирующий бот;
  • Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexBot/3.0; +http://yandex.com/bots) - индексирующий паук;
  • Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) - бот Яндекс.Картинок;
  • Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) - индексирует мультимедийные материалы;
  • Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots) - индексирует иконки сайтов.

Чтобы привлечь на свой сайт пауков Яндекса, рекомендуется выполнить несколько простых действий:

  • правильно настроить robots.txt;
  • создать RSS-фид;
  • разместить sitemap с полным списком индексируемых страниц;
  • создать страницу (или страницы), которые будут содержать ссылки на все документы ресурса;
  • настроить HTTP-статусы;
  • обеспечить социальную активность после публикации материалов (причем не только комментарии, а расшаривание документа);
  • интенсивное размещение новых уникальных текстов.

В пользу последнего аргумента говорит способность ботов запоминать скорость обновления контента и приходить на сайт с обнаруженной периодичностью добавления новых материалов.

Если же вы хотели бы запретить доступ краулерам Яндекса к страницам (например, к техническим разделам), требуется настроить файл robots.txt. Пауки ПС способны понимать стандарт исключений для ботов, поэтому сложностей при создании файла обычно не появляется.

User-agent: Yandex

Disallow: /

запретит ПС индексировать весь сайт.

Кроме того, роботы Яндекса умеют учитывать рекомендации, указанные в мета-тегах. Пример: запретит демонстрацию в выдаче ссылки на копию документа из архива. А добавление в код страницы тега укажет на то, что данный документ не нужно индексировать.

Полный список допустимых значений можно найти в разделе «Использование HTML-элементов» Помощи вебмастеру.

Роботы поисковики Google

Основной механизм индексации контента WWW у Google носит название Googlebot. Его механизм настроен так, чтобы ежедневно изучать миллиарды страниц с целью поиска новых или измененных документов. При этом бот сам определяет, какие страницы сканировать, а какие - игнорировать.

Для этого краулера важное значение имеет наличие на сайте файла Sitemap, предоставляемого владельцем ресурса. Сеть компьютеров, обеспечивающая его функционирование настолько мощна, что бот может делать запросы к страницам вашего сайта раз в пару секунд. А настроен бот так, чтобы за один заход проанализировать большее количество страниц, чтобы не вызывать нагрузку на сервер. Если работа сайта замедляется от частых запросов паука, скорость сканирования можно изменить, настроив в Search Console. При этом повысить скорость сканирования, к сожалению, нельзя.

Бота Google можно попросить повторно просканировать сайт. Для этого необходимо открыть Search Console и найти функцию Добавить в индекс, которая доступна пользователям инструмента Просмотреть как Googlebot. После сканирования появится кнопка Добавить в индекс. При этом Google не гарантирует индексацию всех изменений, поскольку процесс связан с работой «сложных алгоритмов».

Полезные инструменты

Перечислить все инструменты, которые помогают оптимизаторам работать с ботами, достаточно сложно, поскольку их масса. Кроме упомянутого выше «Посмотреть как Googlebot», стоит отметить анализаторы файлов robots.txt Google и Яндекса, анализаторы файлов Sitemap, сервис «Проверка ответа сервера» от российской ПС. Благодаря их возможностям, вы будете представлять, как выглядит ваш сайт в глазах паука, что поможет избежать ошибок и обеспечить наиболее быстрое сканирование сайта.

Прежде чем понять, что такое роботы пауки поисковых систем и как это работает, нужно разобраться в том, что такое современная поисковая система. Свою популярность интернет начал набирать в 90е на территории стран СНГ.

Поисковая система того времени искала точные слова или словосочетания в тексте. Это доставляло массу неудобств, так как русский язык имеет занятную особенность. Одно и то же понятие можно сформулировать в 10-20 вариантах и получится одно и то же.

Все люди разные и мышление у каждого свое. Разработчик сайта не мог на то время прописывать по 20-30 точных фраз на странице, которые возможно моги бы использоваться для поиска данного материала.

Соответственно пользователь часто не мог найти интересующий его материал только потому, что его формулировка проблемы не совпадала с формулировкой в тексте.

Следует отметить, что тогда не было такой жесткой конкуренции и сайт продвигались совсем иначе. сайтов занималось очень мало людей, тогда эта область еще не была поставлена на конвейер, которым он является сейчас.

Это было просто не нужно, очень мало людей имело домашний компьютер и еще меньшее число позаботилось о подключении интернета. Любой в сети был больше похож на объявление, приклеенное на столб, чем на то, что мы видим сейчас в интернете.

Все это очень тормозило развитие поисковых систем и всей кибер индустрии. К слову сказать, тогда уже были роботы поисковых машин и индексация. Вы уже понимаете, что выводилось в результатах поискового запроса.

Теперь следует объяснить, как именно были устроены первые самые простейшие поисковые роботы.

Для того чтобы просканировать текст нужно время. Сейчас это кажется смешным, текст стал настолько легким и незначительным в глазах современных компьютеров, что сложно представить себе машину, которая бы работала над ним несколько минут.

Однако так и работали компьютеры той эпохи. Значит, сканировать все тексты и материалы по запросу невыгодно по времени. В индекс заносились только заглавные названия и названия страниц.

Вот и объяснение, почему нельзя было разместить 20-30 вариантов с формулировками запроса. Так вот, задачей поискового робота являлась сканирование по запросу заглавных названий и названий страниц.

Сейчас поисковые роботы и индексация запущены в постоянную работу на мощнейших серверах, тогда же все работало по принципу «каждый сам за себя». Любой поиск совершался силами персонального компьютера, на котором был сделан запрос.

Пожалуй, в заключение рассказа о первых поисковых роботах можно добавить только то, что сайт глазами поискового робота выглядел как 2 строчки печатного текста.

Тогда поиск был не таким распространенным, сайты искали на досках объявлений, и по , а так же по рекомендации друзей и знакомых.

Каталоги сайтов - это один из тех реликтов, которые существую и сейчас, они заслуживают более подробного писания, позднее вы поймете, почему они больше не актуальны. Поисковые запросы того времени выглядели следующим образом:

  • «бесплатная игра»
  • «общение и знакомства»
  • «грустный стих»
  • «последние новости»

Поисковой робот Google

Приблизительно в 2003 году начал активно набирать обороты проект Google. То, на что сегодня молятся практически все люди, работающие в сфере . Можно сказать, что если бы не Google, то не было бы никакого SEO, но об этом позднее.

Итак, в 2003 году уже существовали поисковые системы, которые гораздо более тщательно обрабатывали информацию и предлагали пользователю качественный поиск не только по названия страниц и заголовкам, а по самому тексту.

Тогда алгоритмы поиска работали, настолько криво, что никому и в голову не приходило пытаться их обмануть. На тот момент персональный компьютер уже не был роскошью, однако до современной популярности интернета было еще очень далеко.

Объем интернет аудитории рос с каждым днем, и многие предприимчивые люди сделали ставку на интернет бизнес.

Поиск текста в то время все еще работал по принципу точного вхождения, тогда незаметная компания Google начала свое восхождение на Олимп.

Этот сервис предлагал пользователю поиск информации по фразе, однако при поиске не учитывался падеж, в котором стояли слова. Код поискового робота Google для сайтов анализировал слова по значению и не учитывал падежи.

Такой тип поиска сразу же принес популярность этой поисковой системе. Чуть позже разработчики переделали алгоритм работы поискового робота так, что он начал использовать синонимизацию, стараясь найти наиболее подходящие тексты для пользователя.

На этом этапе развития, компания Google, уже была мировым лидером в сфере поиска. Случилось это из-за того, что в итоге пользователь, использовав любую формулировку, получал нужную ему информацию.

В то время началось изменение стандартной формулировки поисковых фраз.

Они начинали приобретать сегодняшний вид:

  • «бесплатные онлайн игры»
  • «сайт знакомств»
  • «грустные стихи»
  • «новости»

Можно наглядно проследить изменения в формулировке. Учитывая, что такие формулировки не очень характерны для описаний, поисковый робот Google, прекрасно справлялся с поставленной задачей.

В то время разгорался костер поисковой , люди начали зарабатывать на сайтах. Конечно, всегда были специалисты, которые занимались интернет ресурсов, однако тогда начиналось более-менее массовое движение.

Люли стали интересоваться, как именно происходит ранжирование в поисковой выдаче, приходил ли поисковый робот на их сайт и это породило целый пласт науки о SEO. Эта область занималась изучением того, как роботы поисковых систем выполняют индексацию.

С тех пор о науке SEO продвижения написано большое количество материала, созданы специализированные сервисы и программы для улучшения влияния на поисковых роботов, которые можно скачать в интернете.

Задачей изучений было определение наиболее короткого пути к вершине списка поисковой выдачи. Уже тогда пользователи в первую очередь обращали внимание на верх страницы и первые результаты. Началась борьба за «топ».

Это была лишь тень сегодняшнего соперничества интернет ресурсов.

Поисковой робот Яндекс

На примере этой замечательной поисковой системы можно объяснить, что происходило с алгоритмами поиска в более позднее время. Яндекс занимал неплохие позиции и быстро вырос. Одним из самых популярных поисковых систем до эпохи Google, был такой сервис, как Рамблер.

Он был корифеем поиска, на его глазах поднялись Гугл и Яндекс. Когда то владельцам Рамблер было предложено купить за смешную сумму маленький интернет проект, но они отказались. Тем маленьким проектом был Яндекс.

Буквально за несколько лет эти два гиганта перегнали Рамблер, оставив его далеко позади. Возникает логический вопрос, почему же Гугл не вытеснила поисковый робот Яндекс, что же в нем особенного, как узнать как видит сайт поисковый робот, какими глазами, видят ли роботы iframe, где найти статистику заходов робота на сайт? Следует отметить, что размер этих двух поисковиков нельзя сравнивать, корпорация Google намного больше Яндекса. Однако на территории СНГ эти два конкурента почти на равных.

Яндекс вовремя понял, что универсальность - это не их конек. Попытки занять рынки других стран не увенчались успехом. В критический момент было принято решение развиваться в России и странах СНГ. Поисковый робот Яндекс делал упор на поиске в заданных регионах.

Яндекс ищет по поисковому индексу — базе данных, где для всех слов, которые есть на известных поиску сайтах, указано их местонахождение — адрес страницы и место на ней.

В интернете существует много видов поисковых запросов, однако весомую долю среди них занимают те, которые актуальны для определенной области или региона. Именно на это определение и был заточен поисковый робот Яндекс.

Это и сделало его таким популярным на территории России.

Приведем пример того, какие бывают региональные запросы:

  • покупка чего-либо;
  • заказ услуг;
  • общение и знакомства;
  • доски объявлений;
  • новостные ресурсы.

Это далеко не все запросы, которые имеют актуальность только в определенном регионе. Яндекс сделал русский сегмент интернета непохожим на другие. Россия - это самая большая страна в мире, она разделена на регионы и имеет довольно большие территории.

Все это сделало возможным и их только в определенных областях, так как в других местах страны некоторые материалы неактуальны. Во многом на это повлияла система Яндекс, разделив интернет по участкам.

Почему же такая система не работает в других странах, почему там популярен Гугл? Эта система так же умеет определять местонахождения человека, отправившего запрос, его IP адрес, однако он не настолько много уделяет внимания местоположению.

Еще один пример, во Франции поисковые запросы совершаются на французском, а не английском, это преобладающий язык. А значит, язык в других странах является определяющим для поиска, вряд ли кто-то будет пользоваться поиском на Французском языке в Англии или же наоборот.

Если такое случиться, то пользователь сможет просмотреть сайты, которые относятся к стране с наибольшей популярностью языка.

Так и происходит поиск в других странах. Российский интернет является исключением, так как по языковому критерию невозможно разбить по регионам актуальные сайты.

Так что пока Яндекс более актуален для России, чем гугл, возможно, когда то этот гигант вытеснит всех конкурентов, но пока что не стоит бояться такого.

Роботы поисковых систем очень изменились за то время, в них добавилось много интересных нюансов в алгоритме поиска.

Вот список основных навыков поисковых роботов за последующие несколько лет:

  • анализ ;
  • проверка информативности текста;
  • выделение ключевых слов по их количеству;
  • вычисление «веса» страниц;
  • обработка показателей отказа.

Эти показатели работали на то, чтобы максимально эффективно вычислить вычислить поисковому роботу как часто пользователь видит и читает текст, какова его информативность. Однако, все это не работало так, как было задумано. В то время поисковые системы попали в эру роботизированных текстов.

Это значит, что практически все популярные запросы выдавали не полезную информацию, а технически правильно написанный материал. Самое интересное, что такой текст очень редко был информативным и полезным.

С этим нужно было что-то делать, в разное время вводились некоторые изменения. Например, поисковый робот Google, была интегрирована система вычисления и подсчета показателей отказа.

Это значит, что поисковая система начала производить ранжирование с учетом того, насколько долго человек проводил времени на конкретной странице. Этот показатель вычисляется и сейчас.

Самым серьезным нововведением того времени было введение систем и , от Google и Яндекс соответственно. Смысл этого значения состоял в том, чтобы вычислить вес страниц по принципу цитируемости.

Яндекс объясняет введение этой системы тем, что в научном сообществе существует показатель, который определяет актуальность научной работы. Называется этот показатель «Индекс цитируемости».

В зависимости от того, насколько много в различных работах ссылаются на данный текст, вычисляется их актуальность. Так роботы поисковых систем научились вычислять вес страниц путем сканирования входящих ссылок.

Это перевернуло мир SEO и поставило понятие раскрутки сайта в новую параллель. Теперь контента было недостаточно, чтобы вывести сайт в топ. Ему требовались внешние ссылки и грамотная система внутренней перелинковки.

Внутренняя перелинковка позволяла перебросить вес с одних страниц, на другие. Это стало очень удобным инструментом при управлении своего сайта.







Современные поисковые роботы и индексация

Как мы видим, поисковой робот, который работал по этим алгоритмам, выдавал по запросу технические тексты, которые были не интересны пользователю.

Но аналога поисковой системы Google не было, она не теряла своей популярности, и ее разработчики поступили очень грамотно, переделав алгоритм поиска под нужды пользователя. На данный момент все существовавшие тогда уловки для работы с текстом, стали недействительными.

На данный момент поисковый робот Google для сайтов намного меньше уделяет вниманию . Все усилия поисковика направлены на отсеивание технического материала, который создавался под поисковых роботов.

Анализируется много пунктов, не все они известны на данный момент, так как поисковые системы предпочитают держать такую информацию в тайне. Это нужно, чтобы не возникало подобных кризисов.

Такое развитие повлекло за собой множество изменений в SEO бизнесе. Во время кризиса роботизированных текстов все усилия оптимизаторов были направлены на то, чтоб сделать текст максимально комфортным для робота.

На данный же момент, алгоритмы поиска таковы, что больше нет смысла рассчитывать текст на робота. Гораздо больше результатов приносит материал, который интересен пользователю.

Достаточно провести минимальную оптимизацию, вводя в текст ключевые слова и сделать текст уникальным. Этого достаточно для поисковой системы, эти способы нужны скорее не для того, чтоб обмануть робота, а с той целью, чтоб облегчить ему задачу индексирования.

Следует отметить, что поисковый робот Google для сайтов, и сейчас учитывает «вес страниц» при ранжировании. Это один из самых основных показателей, который зарекомендовал себя за годы службы, нет причин думать, что он станет неактуальным.

Многие показатели анализа текста перестали учитываться или же им стало уделяться минимум внимания. Еще один интересный момент в работе поисковика Google.

Как уже говорилось выше, учитывается показатель отказов, это немного нарушает права пользователя об информационной анонимности, но такой способ позволяет реально определить качество сайта и данной страницы в частности.

Вот пример нескольких моментов, которые могут привести к повышению показателя отказов :

  • неактуальность материала;
  • технические проблемы с работой сервера;
  • большое количество ;
  • слишком яркий , который буквально «выжигает» глаза.

За время работы поисковых систем, оптимизаторы пытались приручить роботов. Однако, только начав приручать, он снова менялся и уже не хотел работать со старым материалом. Такие попытки были всегда, и наблюдать их можно будет, пока существует интернет.

Все из-за того, что понять робота можно, его анализ, запросы и требования к материалу гораздо проще, чем у человека. Их всегда будут пытаться разгадать. Однако всегда будут люди, которые будут создавать сайты для пользователей и в итоге они получат свое признание.

Хоть этот путь долг и тернист, а развитие ресурса таким путем очень долгое, но оно в любом случае будет долгосрочным, так как роботы поисковых систем всегда будут искать именно такой материал. Следует отметить, что такая конкуренция это хорошо.

Если бы поисковик сдал позиции, то мы бы не получали нужной информации через него. А если бы оптимизаторы сложили руки, то интернет перестал бы быть такой большой бизнес площадкой, и в нем бы не было многих материалов, так как на добровольной основе ресурсы развивались бы намного медленнее.

С уважением, Настя Чехова

Всем привет! Сегодня я вам расскажу о том, как работает поисковый робот. Также вы узнаете, что такое поисковые роботы. Их назначение и особенность.

Для начала, начну, пожалуй, с определения.

Поисковый робот – это своего рода программа, которая посещает гипертекстовые ссылки, извлекая из того или иного ресурса все последующие документы занося их в индекс поисковой системы.

У каждого поискового робота, есть свое уникальное название – Краулер, Паук и т.д.

Что делает поисковый робот

Как я уже говорил, каждый робот имеет свое уникальное имя и соответственно, каждый выполняет свою определенную работу, или скажем так, предназначение.

Давайте рассмотрим, какие функции они выполняют:

  • Запрос на доступ к сайту;
  • Запрос для обработки и извлечению страниц;
  • Запрос на анализ контента;
  • Поиск ссылок;
  • Мониторинг обновлений;
  • Запрос к данным RSS (сбор контента);
  • Индексация.

Например, у Яндекса существует несколько роботов, которые отдельно индексируют, анализируют, проводят сбор информации о следующих данных:

  • Видео;
  • Картинки;
  • Зеркало сайта;
  • Xml-файлы;
  • Файл robots.txt;
  • Комментарии;

Вообще, по сути, поисковый робот всего-навсего посещает интернет ресурсы, собирая необходимые данные, которые он потом передает индексатору поисковой машины.

Именно индексатор поисковой машины обрабатывает полученные данные, и выстраивает индекс поисковой системы должным образом. Я бы даже сказал, что робот – это «курьер», который всего лишь собирает информацию.

Как ведут себя роботы и как ими управлять

Отличия поведения робота от простого пользователя на сайте, заключается в следующем:

1. Во первых, это касается управляемости. В первую очередь, робот запрашивает с вашего хостинга () файл robots.txt, в котором указанно, что можно индексировать, а что нельзя.

2. Особенное отличие робота – это скорость. Между каждыми запросами, которые относятся к двум разным документам, их скорость составляет секунды, а то и доли секунды.

Даже для этого, есть специальное правило, которое можно указать в файле robots.txt, чтобы роботу поисковых систем поставить ограничение к запросам, тем самым уменьшив нагрузку на блог.

3. Также, хотелось бы отметить их непредсказуемость. Когда робот посещает ваш блог, его действия невозможно отследить, невозможно узнать, откуда он пришел т.п. Он действует по своему принципу, и в том порядке, как построена очередь индексации.

4. И еще один момент, это когда робот, в первую очередь обращает внимание на гипертекстовые и текстовые документы, а не на всякие файлы, касающиеся оформления CSS и т.п.

Хотите посмотреть, как выглядит страница вашего блога в глазах поискового робота? Просто-напросто, отключите в своем браузере отображение Flash, картинок и стилей оформления.

И вы увидите, что любой поисковый робот заносит в индекс, только HTML-код страницы, без всяких картинок и прочего содержания.

А теперь, настало время поговорить, как ими управлять. Как я уже говорил ранее, управлять роботами можно через специальный файл robots.txt, в котором можно прописывать нужные нам инструкции и исключения, чтобы контролировать их поведение на своем блоге.

Вопреки расхожему мнению, робот непосредственно не занимается какой-либо обработкой сканируемых документов. Он их только считывает и сохраняет, дальше их обработку осуществляют другие программы. Наглядное подтверждение можно получить, анализируя логи сайта, который индексируется в первый раз. При первом визите бот сначала запрашивает файл robots.txt, затем главную страницу сайта. То есть идет по единственной известной ему ссылке. На этом первый визит бота всегда и заканчивается. Через некоторое время (обычно на следующий день) бот запрашивает следующие страницы - по ссылкам, которые найдены на уже считанной странице. Дальше процесс продолжается в том же порядке: запрос страниц, ссылки на которые уже найдены - пауза на обработку считанных документов - следующий сеанс с запросом найденных ссылок.

Разбор страниц «на лету» означал бы значительно бо льшую ресурсоемкость робота и потери времени. Каждый сервер сканирования запускает множество процессов-ботов параллельно. Они должны действовать максимально быстро, чтобы успеть считывать новые страницы и повторно перечитывать уже известные. Поэтому боты только считывают и сохраняют документы. Все, что они сохраняют, ставится в очередь на обработку (разборку кода). Найденные при обработке страниц ссылки ставятся в очередь заданий для ботов. Так и идет непрерывное сканирование всей сети. Единственное, что бот может и должен анализировать «на лету» - это файл robots.txt, чтобы не запрашивать адреса, которые в нем запрещены. При каждом сеансе сканирования сайта робот в первую очередь запрашивает этот файл, а уже после него - все стоящие в очереди на сканирование страницы.

Виды поисковых роботов

У каждой поисковой системы есть свой набор роботов для различных целей.
В основном они различаются по функциональному назначению, хотя границы очень условны, и каждый поисковик понимает их по-своему. Системам только для полнотекстового поиска вполне достаточно одного робота на все случаи жизни. У тех поисковиков, которые заняты не только текстом, боты разделяются как минимум на две категории: для текстов и рисунков. Существуют также отдельные боты, занятые специфическими видами контента - мобильным, блоговым, новостным, видео и т.д.

Роботы Google

Все роботы Google носят общее название Googlebot. Основной робот-индексатор «представляется» так:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Этот бот занят сканированием HTML -страниц и прочих документов для основного поиска Google. Он же изредка считывает файлы CSS и JS - в основном это можно заметить на ранней стадии индексирования сайта, пока бот обходит сайт впервые. Принимаемые типы контента - все (Accept: */*).

Второй из основных ботов занят сканированием изображений с сайта. Он «представляется» просто:

Googlebot-Image/1.0

Еще в логах замечены как минимум три бота, занятых сбором контента для мобильной версии поиска. Поле User-agent всех трех оканчивается строкой:

(compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Перед этой строкой - модель мобильного телефона, с которой этот бот совместим. У замеченных ботов это модели телефонов Nokia, Samsung и iPhone. Принимаемые типы контента - все, но с указанием приоритетов:

Accept: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Роботы Яндекса

Из поисковиков, активно действующих в Рунете, самая большая коллекция ботов у Яндекса. В разделе помощи для вебмастеров можно найти официальный список всего паучьего личного состава. Приводить его здесь полностью нет смысла, поскольку в этом списке периодически происходят изменения.
Тем не менее, о самых важных для нас роботах Яндекса нужно упомянуть отдельно.
Основной индексирующий робот на текущий момент зовется

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

Ранее представлялся как

Yandex/1.01.001 (compatible; Win16; I)

Считывает HTML -страницы сайта и другие документы для индексирования. Список принимаемых медиатипов ранее был ограничен:

Accept: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

С 31 июля 2009 года в этом списке было замечено существенное расширение (число типов почти удвоилось), а с 10 ноября 2009 года список укоротился до */* (все типы).
Этого робота живо интересует вполне определенный набор языков: русский, несколько менее украинский и белорусский, еще чуть меньше английский и совсем мало - все остальные языки.

Accept-Language: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

Робот-сканер изображений несет в поле User-agent строку:

Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots)

Занимается сканированием графики разных форматов для поиска в картинках.

В отличие от Google, у Яндекса есть отдельные боты для обслуживания некоторых специальных функций общего поиска.
Робот-«зеркальщик»

Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Ничего особенно сложного не делает - периодически появляется и проверяет, совпадает ли главная страница сайта при обращении к домену с www. и без. Также проверяет параллельные домены-«зеркала» на совпадение. По-видимому, зеркалами и канонической формой доменов в Яндексе занимается отдельный программный комплекс, не связанный напрямую с индексированием. Иначе решительно нечем объяснить существование для этой цели отдельного бота.

Сборщик иконок favicon.ico

Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots)

Периодически появляется и запрашивает иконку favicon.ico, которая потом появляется в поисковой выдаче рядом со ссылкой на сайт. По каким причинам эту обязанность не совмещает сборщик картинок, неизвестно. По-видимому, также имеет место отдельный программный комплекс.

Проверочный бот для новых сайтов, работает при добавлении в форму AddURL

Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots)

Этот бот проверяет отклик сайта, посылая запрос HEAD к корневому URL . Таким образом проверяется существование главной страницы в домене и анализируются HTTP -заголовки этой страницы. Также бот запрашивает файл robots.txt в корне сайта. Таким образом после подачи ссылки в AddURL определяется, что сайт существует и ни в robots.txt, ни в HTTP -заголовках не запрещен доступ к главной странице.

Робот Рамблера

В настоящее время уже не работает , поскольку Рамблер сейчас использует поиск Яндекса
Робота-индексатора Рамблера легко опознать в логах по полю User-agent

StackRambler/2.0 (MSIE incompatible)

По сравнению с «коллегами» из других поисковых систем этот бот кажется совсем простым: не указывает список медиатипов (соответственно, получает запрошенный документ любого типа), поле Accept-Language в запросе отсутствует, в запросах бота не встречено также поле If-Modified-since.

Робот Mail.Ru

Об этом роботе пока известно немного. Разработку собственного поиска портал Mail.Ru ведет уже давно, но все никак не соберется этот поиск запустить. Поэтому достоверно известно только наименование бота в User-agent - Mail.Ru/2.0 (ранее - Mail.Ru/1.0). Наименование бота для директив файла robors.txt нигде не публиковалось, есть предположение, что бота так и следует звать Mail.Ru.

Прочие роботы

Поиск в интернете, конечно, не ограничивается двумя поисковыми системами. Поэтому существуют и другие роботы - например робот Bing - поисковой системы от Microsoft и другие роботы. Так, в частности, в Китае есть национальная поисковая система Baidu - но ее робот вряд ли долетит до середины реки дойдет до русского сайта .

Кроме того, в последнее время расплодилось много сервисов - в частности solomono - которые хоть и не являются поисковыми системами, но тоже сканирует сайты. Часто ценность передачи информации о сайте таким системам сомнительна, и поэтому их роботов можно запретить в

Поисковым роботом называется специальная программа какой-либо поисковой системы, которая предназначена для занесения в базу (индексирования) найденных в Интернете сайтов и их страниц. Также используются названия: краулер, паук, бот, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Принцип работы

Поисковый робот — это программа браузерного типа. Он постоянно сканирует сеть: посещает проиндексированные (уже известные ему) сайты, переходит по ссылкам с них и находит новые ресурсы. При обнаружении нового ресурса робот процедур добавляет его в индекс поисковика. Поисковый робот также индексирует обновления на сайтах, периодичность которых фиксируется. Например, обновляемый раз в неделю сайт будет посещаться пауком с этой частотой, а контент на новостных сайтах может попасть в индекс уже через несколько минут после публикации. Если на сайт не ведет ни одна ссылка с других ресурсов, то для привлечения поисковых роботов ресурс необходимо добавить через специальную форму (Центр вебмастеров Google, панель вебмастера Яндекс и т.д.).

Виды поисковых роботов

Пауки Яндекса :

  • Yandex/1.01.001 I — основной бот, занимающийся индексацией,
  • Yandex/1.01.001 (P) — индексирует картинки,
  • Yandex/1.01.001 (H) — находит зеркала сайтов,
  • Yandex/1.03.003 (D) — определяет, соответствует ли страница, добавленная из панели вебмастера, параметрам индексации,
  • YaDirectBot/1.0 (I) — индексирует ресурсы из рекламной сети Яндекса,
  • Yandex/1.02.000 (F) — индексирует фавиконы сайтов.

Пауки Google:

  • Робот Googlebot — основной робот,
  • Googlebot News — сканирует и индексирует новости,
  • Google Mobile — индексирует сайты для мобильных устройств,
  • Googlebot Images — ищет и индексирует изображения,
  • Googlebot Video — индексирует видео,
  • Google AdsBot — проверяет качество целевой страницы,
  • Google Mobile AdSense и Google AdSense — индексирует сайты рекламной сети Google.

Другие поисковики также используют роботов нескольких видов, функционально схожих с перечисленными.

Вверх