Как создать файл robots.txt

Управлять доступом роботами поисковых систем к вашему сайту вы можете при помощи файла robots.txt, который должен быть размещен в корневой директории сайта. Если этого файла нет или он имеет не текстовый формат расширения, то это означает, что ни каких ограничений для индексации нет. При этом роботы могут не найти часть ваших страниц, допустим динамических, которые есть в карте сайта "sitemap.xml". При написании файла "robots.txt"регистр символов значения не имеет. Далее расмотрим более подробно каждую дериктиву(строку):

1) Директива User-agent. Это обращение к поисковому роботу в общем или персонально.
# - А после этого символа мы можем писать коментарии в пределах одной строки:
User-agent: Yandex # указания для яндекса
User-agent: * # указания для всех других поисковых роботов.
Это правилиные коментарии

User-agent: Yandex # указания для яндекса
User-agent: * # указания для всех других
поисковых роботов.
Это коментарий неверный, т.к. в 2 строке есть перенос.
Но если обобщить всю информацию об коментариях, то в принципе они не обязательны и использовать их или нет выбирайте сами, ведь вы их пишите только для себя.

Я вам не зря продеминстрировал обращение к двум роботам, дело все в том, что бывают ситуации когда для разных поисковых роботов нужны различные предписания, на пример запретить индексировать часть сайта, тогда и создаются персональные директивы. Так вот первым делом мы обращаемся персонально к определленым роботам:
User-agent: Yandex # например к яндексу
А потом к всем остальным:
User-agent: *
Значек *(кнопки shilft + 8) означает для всех остальных поисковых роботов.

2) Директивы Allow и Disallow служат для запрета или разрешения индексации отдельных каталогов, файлов или всего сайта.

      User-agent: *
      Allow:   #  запретить индексацию
      Allow: / #  разрешить индексацию
      Disallow: # разрешить индексацию
      Disallow: / #  запретить индексацию
     

Если вам не нужно что либо запрещать то используйте, только разрешающую директиву.

При помощи директив Allow и Disallow можно разрешить(запетить) индексирование части файлов или их типов:

User-agent: *
Disallow: / *.php #  разрешить  индексацию всего кроме php файлов
Disallow: / images # разрешить  индексацию всего кроме  папки

С 2014 года рекомендутся испоьзовать только один тип деректив, т.е. или только Allow или как в моем примере выше только директиву Disallow

После директив Allow и(или) Disallow идет директива Host. Данная деректива опрделяет главное зеркало, т.е. главный сайт. Например у вас есть сайты: site.com, site.org, site.name с одинаковым содержанием, при этом поисковые роботы видят что сайты абсолютно одинаковы и не индексируют их нормально. Чтобы не было проблем вам нужно определить какой из этих сайтов будет главный, а какие зеркалами. Для этого вам нужно в сайтах-зеркалах указать в директиве Host ссылку на главный сайт:

User-agent: *
Host: site.com

В директиве Host не указывается протокол(http, https и т.д.), а так-же сплеши и все что после них.
Почти к любому сайту можно обраться как site.com так и www.site.com , в этом случае вам тоже желательно опрдельть какой адрес сайта главный и определить его в директиве Host.

Директива Sitemap указывает абсолютный путь к файлу sitemap.xml, т.е. к карте сайта для поисковых роботов:

User-agent: *
Sitemap: http://www.site.com/sitemap.xml

Теперь соберем весь файл robots.txt

# пример robots.txt
User-agent: Yandex
Disallow: # разрешить индексацию
Host: site.com

User-agent: *
Disallow: # разрешить индексацию
Host: site.com

Sitemap: http://site.com/sitemap.xml

Обратите внимание что в самом верху нет отступа и его нет в блоке директив для конкретного поискового робота, но отступы есть между блоками директив и директивой Sitemap. Последняя директива указывается один раз для всех поисковых систем, но можно указать несколько файлов sitemap.xml, т.е использовать несколько директив Sitemap.


Перейти к выбору следующей страницы