Robots.txt это файл, предназначенный для поисковых роботов, в котором указаны ограничения для индексации содержимого сайта. Обычно используется для запрета обхода роботами технической и конфиденциальной информации, чтобы она не выводилась в поисковых системах. Находится он в корневом каталоге вашего сайта, например,

"/Web/user/htdocs/example.com/robots.txt"

В браузере его можно найти по адресу http://example.com/robots.txt.

Что писать в файл robots.txt?

В настоящее время в файле robots.txt имеется только три основных оператора:

Disallow: / path

allow: / путь

sitemap: http://example.com/sitemap.xml

+ еще

host: http://example.com (для Яндекса)

 

Содержимое файла robots.txt состоит из разделов, посвященных определенным роботам-сканерам. Если вам нечего скрывать от индексации, то ваш файл robots.txt выглядит так:

 User-agent: *

 Disallow:

 Allow: /

 Sitemap: http://example.com/sitemap.xml

 

Если вам нравится Google, а Yandex нет, напишите:

User-agent: *

Disallow:

User-agent: Googlebot

Disallow:

User-agent: Yandex

disallow: /

Обратите внимание, что вы должны завершить работу каждого раздела пустой строкой.

Из приведенных выше примеров вы узнали, что каждая поисковая система имеет свое имя. Вы можете найти имена роботов-сканеров, посетив раздел веб-мастера поисковой системы и записать их в виде User-agent: [имя робота] в начале раздела.

Имя робота «*» означает универсальный веб-робот, это означает, что, если ваш файл robots.txt не имеет раздела для конкретного робота, он будет использовать директивы «*», и, если у вас есть раздел для конкретного робота, он будет игнорировать раздел «*». Другими словами, если вы создаете раздел для робота, перед редактированием кода вы должны дублировать все инструкции из раздела «Все роботы» («user-agent: *»).

Теперь к директивам. Самая важная директива - Disallow: / path

«Disallow» означает, что робот не должен получать содержимое из URI, которые соответствуют «/ path».

URI всегда относятся к корню веб-пространства, поэтому, если вы копируете и вставляете URL-адреса http://example.com/content/, то удалите часть http://example.com, но не /content/

Т.е. получится Disallow: /content/

Далее идет Allow:

«allow» - разрешает индексировать путь /

Нужен чтобы уточнить Disallow: утверждения, к примеру запись

User-agent: Googlebot

Disallow: /

Allow: / content /

Позволяет роботу гугла сканировать только в пределах http://example.com/content/

Карта сайта Sitemap: http://example.com/sitemap.xml

Указывает местоположение карты сайта, на которой есть ссылки на все страницы сайта. Подобно оглавлению книги – карта сайта ускоряет поиск и индексацию страниц сайта.

Можно ли автоматически генерировать файл robots.txt?

Да, можно. Но это возможно в случае, если ваш CMS поддерживает соответствующие плагины. Так же есть специализированные сайты, которые помогут генерировать карту для вашего сайта. Но не забывайте своевременно ее обновлять.

Добавить комментарий

Авторизуйтесь через соц. сети

 


Защитный код
Обновить

Не определились с выбором?
Оставьте ваши контакты и мы поможем!

Нажимая на кнопку вы принимаете условия