Правильный файл robots.txt
Файл robots.txt – представляет собой текстовый документ, который лежит в «корне» сайта и указывает поисковым роботам, что им можно индексировать, а что нет. Так же в нем прописывается главное зеркало сайта, рекомендуемый временной интервал между индексированием страниц сайта и т.д.
Поисковой робот, он же краулер (от англ. crawler) — это специальная программа, которая являющаяся одной из основных частей поисковых алгоритмов. Главной задачей краулера является обход страниц
интернета, их скачивание и занесение в базу данных поисковика. По простому поисковый робот представляет обычный браузер, который просматривает страницы, информацию из них переносит сервер своей
поисковой системы, и идет дальше по внутренним ссылкам на другие страницы сайта. Глубина просмотра сайта у краулера обычно ограничена.
Если вы используете WordPress, то пример файла robots.txt будет выглядеть так:
User-Agent: *
Disallow: /wp-
Disallow: /feed/
Disallow: /trackback/
«User-Agent: *» — означает, что все поисковые боты (от Google, Yandex, Yahoo, MSN и т.д.) должны использовать эти инструкции для обхода вашего сайта. Если ваш сайт является сложным вам нужно будет
устанавливать разные инструкции для разных пауков. Вы можете прописывать инструкции и под каждого робота в отдельности (актуально для робота Яндекса с их директорией «HOSTS:…», где вместо точек имя главного зеркала сайта). Для разных поисковых ботов существуют свои имена:
- robots.txt для Гугла — User-agent: Googlebot
- robots.txt для Рамблера — User-agent: StackRambler
- robots.txt для Яндекса — User-agent: Yandex
- robots.txt для Yahoo — User-agent: Slurp или Yahoo! Slurp
- robots.txt для MSN — User-agent: MSNBot
«Disallow: / WP-» — означает, что поисковые системы не будут сканировать файлы WordPress, т.е. исключить все файлы и папки, начинающиеся с «WP-» из индексации.
Если вы не используете WordPress или Joomla и не хотите, чтобы инднксировались некоторые папки и файлы них, просто укажите их в строке Disallow, например:
User-agent: *
Disallow: /images/
Disallow: /cgi-bin/
Disallow: / любой другой папки, которые следует исключить /
После того как вы создали файл robots.txt, его нужно просто загрузить в корневой каталог вашего сайта !
Правильно составленный роботс — залог успеха. Yahoo лучше ограничить по скорости.
это точно!