Главная » Файл robots.txt

Файл robots.txt

Что такое файл robots.txt

Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции (команды) для роботов поисковых систем, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны индексироваться.

Файл robots.txt необходим только в том случае, если на вашем сайте есть содержание, которое не следует включать в индекс поисковых систем. Если вы хотите, чтобы поисковые системы включали в свои индексы все содержание вашего сайта, файл robots.txt (даже пустой) не требуется.

Cоздание файла robots.txt

Воспользуйтесь любым текстовым редактором (например, Блокнотом или WordPad’ом), создайте файл с именем «robots.txt» и заполните его в соответствии с представленными ниже правилами. После этого необходимо загрузить файл в корневой каталог вашего сайта.

В простейшем файле robots.txt используются два правила:

  • User-agent: агент пользователя, робот, к которому применяется следующее правило.
  • Disallow: URL, которые необходимо заблокировать.

Эти две строки рассматриваются как одна запись. Можно включить любое необходимое число записей, в каждой из которых может содержаться несколько строк Disallow и User-agent.

Недопустимо наличие пустых переводов строки между директивами User-agent и Disallow, а также между самими Disallow директивами. Кроме того, в соответствии со стандартом перед каждой директивой User-agent рекомендуется вставлять пустой перевод строки.

Пример:


User-agent: Yandex Disallow: / # блокирует доступ ко всему сайту
User-agent: Yandex Disallow: /cgi-bin # блокирует доступ к страницам #начинающимся с '/cgi-bin'

Директива Sitemap

Если вы используете описание структуры вашего сайта в формате sitemap.xml, и хотите, чтобы робот узнал о ней, укажите путь к файлу sitemap.xml в качестве параметра директивы ‘Sitemap’ (если файлов несколько, укажите все).

Пример:


User-agent: Yandex Allow: /
Sitemap: http://mysite.ru/site_structure/my_sitemap.xml

Директива Host

Если у вашего сайта есть зеркала, специальный робот зеркальщик определит их и сформирует группу зеркал вашего сайта. В поиске будет участвовать только главное зеркало. Вы можете указать его у всех зеркал при помощи robots.txt, используя директиву ‘Host’ и определив в качестве ее параметра имя главного зеркала.

Пример:


# Если www.glavnoye-zerkalo.ru главное зеркало сайта, то
# robots.txt для всех сайтов из группы зеркал выглядит так
User-Agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: www.glavnoye-zerkalo.ru

Ссылки:

  1. Использование файла robots.txt
  2. Блокировка и удаление страниц с помощью файла robots.txt
GD Star Rating
loading...
Файл robots.txt, 5.0 out of 5 based on 1 rating

Навигация по Базе Знаний: