Что такое файл robots.txt
Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции (команды) для роботов поисковых систем, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны индексироваться.
Файл robots.txt необходим только в том случае, если на вашем сайте есть содержание, которое не следует включать в индекс поисковых систем. Если вы хотите, чтобы поисковые системы включали в свои индексы все содержание вашего сайта, файл robots.txt (даже пустой) не требуется.
Cоздание файла robots.txt
Воспользуйтесь любым текстовым редактором (например, Блокнотом или WordPad’ом), создайте файл с именем «robots.txt» и заполните его в соответствии с представленными ниже правилами. После этого необходимо загрузить файл в корневой каталог вашего сайта.
В простейшем файле robots.txt используются два правила:
- User-agent: агент пользователя, робот, к которому применяется следующее правило.
- Disallow: URL, которые необходимо заблокировать.
Эти две строки рассматриваются как одна запись. Можно включить любое необходимое число записей, в каждой из которых может содержаться несколько строк Disallow и User-agent.
Недопустимо наличие пустых переводов строки между директивами User-agent и Disallow, а также между самими Disallow директивами. Кроме того, в соответствии со стандартом перед каждой директивой User-agent рекомендуется вставлять пустой перевод строки.
Пример:
User-agent: Yandex Disallow: / # блокирует доступ ко всему сайту
User-agent: Yandex Disallow: /cgi-bin # блокирует доступ к страницам #начинающимся с '/cgi-bin'
Директива Sitemap
Если вы используете описание структуры вашего сайта в формате sitemap.xml, и хотите, чтобы робот узнал о ней, укажите путь к файлу sitemap.xml в качестве параметра директивы ‘Sitemap’ (если файлов несколько, укажите все).
Пример:
User-agent: Yandex Allow: /
Sitemap: http://mysite.ru/site_structure/my_sitemap.xml
Директива Host
Если у вашего сайта есть зеркала, специальный робот зеркальщик определит их и сформирует группу зеркал вашего сайта. В поиске будет участвовать только главное зеркало. Вы можете указать его у всех зеркал при помощи robots.txt, используя директиву ‘Host’ и определив в качестве ее параметра имя главного зеркала.
Пример:
# Если www.glavnoye-zerkalo.ru главное зеркало сайта, то
# robots.txt для всех сайтов из группы зеркал выглядит так
User-Agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: www.glavnoye-zerkalo.ru
Ссылки:
loading...
Свежие комментарии