Зачем нужен robots.txt на веб-сайте?

Robots.txt это файл, предназначенный для поисковых роботов, в котором указаны ограничения для индексации содержимого сайта. Обычно используется для запрета обхода роботами технической и конфиденциальной информации, чтобы она не выводилась в поисковых системах. Находится он в корневом каталоге вашего сайта, например,

"/Web/user/htdocs/example.com/robots.txt"

В браузере его можно найти по адресу http://example.com/robots.txt.

Что писать в файл robots.txt?

В настоящее время в файле robots.txt имеется только три основных оператора:

Disallow: / path

allow: / путь

sitemap: http://example.com/sitemap.xml

+ еще

host: http://example.com (для Яндекса)

Содержимое файла robots.txt состоит из разделов, посвященных определенным роботам-сканерам. Если вам нечего скрывать от индексации, то ваш файл robots.txt выглядит так:

User-agent: *

Disallow:

Allow: /

Sitemap: http://example.com/sitemap.xml

Если вам нравится Google, а Yandex нет, напишите:

User-agent: *

Disallow:

User-agent: Googlebot

Disallow:

User-agent: Yandex

disallow: /

Обратите внимание, что вы должны завершить работу каждого раздела пустой строкой.

Из приведенных выше примеров вы узнали, что каждая поисковая система имеет свое имя. Вы можете найти имена роботов-сканеров, посетив раздел веб-мастера поисковой системы и записать их в виде User-agent: [имя робота] в начале раздела.

Имя робота «*» означает универсальный веб-робот, это означает, что, если ваш файл robots.txt не имеет раздела для конкретного робота, он будет использовать директивы «*», и, если у вас есть раздел для конкретного робота, он будет игнорировать раздел «*». Другими словами, если вы создаете раздел для робота, перед редактированием кода вы должны дублировать все инструкции из раздела «Все роботы» («user-agent: *»).

Теперь к директивам. Самая важная директива - Disallow: / path

«Disallow» означает, что робот не должен получать содержимое из URI, которые соответствуют «/ path».

URI всегда относятся к корню веб-пространства, поэтому, если вы копируете и вставляете URL-адреса http://example.com/content/, то удалите часть http://example.com, но не /content/

Т.е. получится Disallow: /content/

Далее идет Allow:

«allow» - разрешает индексировать путь /

Нужен чтобы уточнить Disallow: утверждения, к примеру запись

User-agent: Googlebot

Disallow: /

Allow: / content /

Позволяет роботу гугла сканировать только в пределах http://example.com/content/

Карта сайта Sitemap: http://example.com/sitemap.xml

Указывает местоположение карты сайта, на которой есть ссылки на все страницы сайта. Подобно оглавлению книги – карта сайта ускоряет поиск и индексацию страниц сайта.

Можно ли автоматически генерировать файл robots.txt?

Да, можно. Но это возможно в случае, если ваш CMS поддерживает соответствующие плагины. Так же есть специализированные сайты, которые помогут генерировать карту для вашего сайта. Но не забывайте своевременно ее обновлять.