Разработка сайтов и оптимизация  
   
 
 
Контакты  Разработка сайтов Портфолио Мы
 TengyStudio » Роботы поисковых систем

Роботы поисковых систем

Индексирующие роботы

User-agent: Yandex — основной робот Яндекса

User-agent: Googlebot — основной робот Google
Google IP List

User-agent: StackRambler — поисковый робот Рамблера

User-agent: Aport — поисковый робот Апорта

User-agent: Slurp — поисковый робот Yahoo!
Yahoo! IP List

User-agent: MSNBot — поисковый робот MSN

User-agent: ia_archiverробот Alexa


Роботы Яндекса

У Яндекса есть несколько роботов, которые представляются по-разному.

Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот
Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок
Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов
Yandex/1.02.000 (compatible; Win16; F) — робот, индексирующий пиктограммы (favicons) сайтов
Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
Yandex/1.03.000 (compatible; Win16; M) — робот, обращающийся при открытии страницы по ссылке «Найденные слова»
YaDirectBot/1.0 (compatible; Win16; I) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса
YandexBlog/0.99.101 (compatible; DOS3.30; Mozilla/5.0; B; robot) — робот поиска по блогам, индексирующий коментарии постов.

IP-адресов, с которых «ходит» робот Яндекса, много, и они могут меняться. Список адресов мы не разглашаем.

Кроме роботов, у Яндекса есть несколько агентов-«простукивалок», которые определяют, доступен ли в данный момент сайт или документ, на который стоит ссылка в соответствующем сервисе.

Yandex/2.01.000 (compatible; Win16; Dyatel; C) — «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.
Yandex/2.01.000 (compatible; Win16; Dyatel; Z) — «простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.
Yandex/2.01.000 (compatible; Win16; Dyatel; D) — «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается.
Yandex/2.01.000 (compatible; Win16; Dyatel; N) — «простукивалка» Яндекс.Новостей. Она формирует статистические отчеты для контент-менеджера и информирует его о возможных проблемах у партнеров-поставщиков новостей
Источник: help.yandex.ru

Изменение User-Agent роботов Яндекса
В течение июня 2010 года все роботы Яндекса изменят вид своего представления в User-Agent:
Mozilla/5.0 (compatible; YandexBot/3.0) — основной индексирующий робот.
Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector) — робот, определяющий зеркала сайтов.
Mozilla/5.0 (compatible; YandexImages/3.0) — индексатор Яндекс.Картинок.
Mozilla/5.0 (compatible; YandexVideo/3.0) — индексатор Яндекс.Видео.
Mozilla/5.0 (compatible; YandexMedia/3.0) — робот, индексирующий мультимедийные данные.
Mozilla/5.0 (compatible; YandexBlogs/0.99; robot) — робот поиска по блогам, индексирующий комментарии постов.
Mozilla/5.0 (compatible; YandexAddurl/2.0) — робот, обращающийся к странице при добавлении ее через форму «Добавить URL».
Mozilla/5.0 (compatible; YandexFavicons/1.0) — робот, индексирующий пиктограммы сайтов (favicons).
Mozilla/5.0 (compatible; YandexDirect/3.0) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса.
Mozilla/5.0 (compatible; YandexDirect/2.0; Dyatel) — «простукивалка» Яндекс.Директа.
Mozilla/5.0 (compatible; YandexMetrika/2.0) — робот Яндекс.Метрики.
Mozilla/5.0 (compatible; YandexCatalog/3.0; Dyatel) — «простукивалка» Яндекс.Каталога.
Mozilla/5.0 (compatible; YandexNews/3.0) — индексатор Яндекс.Новостей.

Роботы Google

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) — поисковый робот Google.

Googlebot-Image (Google) Googlebot-Image/1.0 — робот-индексатор картинок.
Директивы, адресованные этому роботу, прописываются для удаления изображений из Картинок Google, например, для запрета индексации картинок в новостях (в данном случае иллюстрации к новостям размещаются в папке /news/img/):

User-agent: *
Disallow: /news

User-agent: Googlebot-Image
Disallow: /news/img/
(аналогично директивы можно применить ко всем роботам, перечисленным на этой странице)

Mediapartners-Google — робот-анализатор AdSense.
Директивы, адресованные этому роботу, прописываются для запрета индексации страниц с сохранением показа объявлений AdSense, например:

User-agent: *
Disallow: /news

User-agent: MediaPartners-Google
Allow: /news
(Allow: - открывающая для индексации директива, противоположна Disallow: аналогично директивы можно применить ко всем роботам, перечисленным на этой странице)

Googlebot-Mobile (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html) — робот индексирующий сайты для мобильных устройств.
Google Search Appliance (Google) gsa-crawler — поисковой робот нового аппаратно-программного комплекса Search Appliance (GSA 6.0).
AdsBot-Google (+http://www.google.com/adsbot.html) — оценка качества целевых страниц AdWords.


Робот Рамблера

StackRambler/2.0 (MSIE incompatible) — поисковый робот Рамблера.
StackRambler/2.0 — поисковый робот Рамблера.


Роботы Апорта

Aport — поисковый робот Апорта
AportCatalogRobot/2.0 — робот Апорт каталога.


Роботы Yahoo!

Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) — поисковый робот Yahoo!
Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp) — новый робот Yahoo! 3-го поколения.
Yahoo-MMCrawler/3.x (mms dash mmcrawler dash support at yahoo dash inc dot com) — робот-индексатор картинок.
Yahoo-Blogs/v3.9 (compatible; Mozilla 4.0; MSIE 5.5; http://help.yahoo.com/help/us/ysearch/crawling/crawling-02.html ) — робот поиска по блогам.


Роботы MSN

msnbot/1.1 (+http://search.msn.com/msnbot.htm) — основной робот MSN.

msnbot-media/1.0 (+http://search.msn.com/msnbot.htm) — робот-индексатор мультимедийных файлов для images.live.com.

msnbot-media/1.1 (+http://search.msn.com/msnbot.htm) — робот-индексатор мультимедийных файлов.

msnbot-news (+http://search.msn.com/msnbot.htm) — робот индексирующий новости.

msnbot-NewsBlogs/1.0 (+http://search.msn.com/msnbot.htm) — обеспечивает актуальность новостей и блогов для search.live.com/news
Если робот поисковой системы пытается получить доступ к вашему веб-узлу чаще одного раза в несколько секунд, можно увеличить задержку между обращениями и настроить их минимальную частоту (в секундах) с помощью параметра Crawl-delay в файле robots.txt, например:

User-agent: msnbot
Crawl-delay: 120
(на новостной робот msnbot-NewsBlogs /1.0 не распространяется действие параметра задержки обхода)

msnbot-Products/1.0 (+http://search.msn.com/msnbot.htm) — индексация для поиска товаров и шоппинга products.live.com

msnbot-Academic/1.0 (+http://search.msn.com/msnbot.htm) — производит академический поиск в academic.live.com


Робот Alexa

ia_archiver (+http://www.alexa.com/site/help/webmasters; crawler@alexa.com) — робот Alexa.
ia_archiver-web.archive.org — робот Alexa. Роботы Alexa полезны тем, что индексируют сайты для web.archive.org


SAPE.BOT is watching you! — сканирует сайты для биржи SAPE.ru


Как посмотреть информацию о посещениях сайта роботами можно узнать на странице Лог-файлы сервера

Тут я советую почитать про грибы.

 

При цитировании материалов сайта ссылка на Tengy Studio обязательна.

 

 
 
 
Создание и продвижение сайтов
Tengy Studio © 2002-
Карта сайта E-mail
Rambler's Top100