Robots.txt это файл, предназначенный для поисковых роботов, в котором указаны ограничения для индексации содержимого сайта. Обычно используется для запрета обхода роботами технической и конфиденциальной информации, чтобы она не выводилась в поисковых системах. Находится он в корневом каталоге вашего сайта, например,
"/Web/user/htdocs/example.com/robots.txt"
В браузере его можно найти по адресу http://example.com/robots.txt.
Что писать в файл robots.txt?
В настоящее время в файле robots.txt имеется только три основных оператора:
Disallow: / path
allow: / путь
sitemap: http://example.com/sitemap.xml
+ еще
host: http://example.com (для Яндекса)
Содержимое файла robots.txt состоит из разделов, посвященных определенным роботам-сканерам. Если вам нечего скрывать от индексации, то ваш файл robots.txt выглядит так:
User-agent: *
Disallow:
Allow: /
Sitemap: http://example.com/sitemap.xml
Если вам нравится Google, а Yandex нет, напишите:
User-agent: *
Disallow:
User-agent: Googlebot
Disallow:
User-agent: Yandex
disallow: /
Обратите внимание, что вы должны завершить работу каждого раздела пустой строкой.
Из приведенных выше примеров вы узнали, что каждая поисковая система имеет свое имя. Вы можете найти имена роботов-сканеров, посетив раздел веб-мастера поисковой системы и записать их в виде User-agent: [имя робота] в начале раздела.
Имя робота «*» означает универсальный веб-робот, это означает, что, если ваш файл robots.txt не имеет раздела для конкретного робота, он будет использовать директивы «*», и, если у вас есть раздел для конкретного робота, он будет игнорировать раздел «*». Другими словами, если вы создаете раздел для робота, перед редактированием кода вы должны дублировать все инструкции из раздела «Все роботы» («user-agent: *»).
Теперь к директивам. Самая важная директива - Disallow: / path
«Disallow» означает, что робот не должен получать содержимое из URI, которые соответствуют «/ path».
URI всегда относятся к корню веб-пространства, поэтому, если вы копируете и вставляете URL-адреса http://example.com/content/, то удалите часть http://example.com, но не /content/
Т.е. получится Disallow: /content/
Далее идет Allow:
«allow» - разрешает индексировать путь /
Нужен чтобы уточнить Disallow: утверждения, к примеру запись
User-agent: Googlebot
Disallow: /
Allow: / content /
Позволяет роботу гугла сканировать только в пределах http://example.com/content/
Карта сайта Sitemap: http://example.com/sitemap.xml
Указывает местоположение карты сайта, на которой есть ссылки на все страницы сайта. Подобно оглавлению книги – карта сайта ускоряет поиск и индексацию страниц сайта.
Можно ли автоматически генерировать файл robots.txt?
Да, можно. Но это возможно в случае, если ваш CMS поддерживает соответствующие плагины. Так же есть специализированные сайты, которые помогут генерировать карту для вашего сайта. Но не забывайте своевременно ее обновлять.