В этой статье я расскажу вам про все нюансы написания файла robots.txt. Но с начала я расскажу вам про то, что это вообще такое и как его грамотно написать.
Итак, что же это такое? Robots.txt — это самый обыкновенный файл с текстовым расширения, который находится в корне сайта. В нем прописаны различные директивы. Каждая из них дает какую-либо информацию поисковым роботам. Другими словами, этот файл разрешает или запрещает поисковым системам индексацию различных страниц.
Перед началом изучения различных директив нам нужно вычленить основной синтаксис данного файла. Вот он:
директива: ее значение
Как вы заметили, синтаксис наипростейший, его даже дурак запомнит и поймет. Ну, а теперь пришло время изучения директив. Итак, первой деркиктивой является User-Agent.
Данная директива говорит о том, к какому или каким поисковым роботам относятся данные условия. Значение «*» данной директивы говорит о том, что дынные правила применимы ко всем поисковикам. Ну а если вам все же нужно разрешить некоторые условия только какой-то одной определенной поисковой системе, например, Яндексу, вы должны написать в файле robots.txt следующее:
User-Agent: Yandex
Следующая директива — это Allow. Директива Allow дает разрешение на индексацию элементов, которые указаны в значение директивы. К примеру:
Allow: /images
Это условие разрешает поисковикам индексировать каталог images.
Далее — Disallow. Disallow — это полная противоположность директивы Allow. Эта директива запрещает индексацию поисковикам. Например, нам нужно запретить индексацию директории «library». Для этого мы должны написать:
Disallow: /library
Всегда помните, что более сильный приоритет имеет то условие, которое находится в тексте файла выше. Например:
Allow: /img
Disallow: /
В данном примере директива Disallow полностью запрещает индекс сайта, но директива allow, которая разрешает индексацию папки img, находится выше, а это значит, что запрет на индексацию не распространяется на папку img. А вот если поставить директиву Disallow первой, то индексации папки img не произойдет. У данной директивы так же есть значение «*». Это значение может запретить или разрешить (в зависимости от директивы) индексацию всех файлов в определённой папке. Например:
Disallow : /img/*.png
Данной строчкой мы запрещаем индексацию рисунков с расширением png папки img. Но при этом изображения с другими расширениями будут доступны для индексации.
Есть еще такая директива как Sitemap. Эту директиву используют только в том случае, если на сайте имеется XML версия карты сайта. В значение данной директивы обязательно нужно прописать путь к карте сайта (полный). Вот пример:
Sitemap: sitemap.xml
Далее — директива Host. Директиву Host может понимать только Яндекс. Эта директива в своем значении содержит основной адрес сайта. Это часто используется, когда у вашего сайта есть много зеркал. Пример написания условия:
Host: site2sale.ru
Еще эту директиву можно использовать вместо прописывания 301 редиректа. Это значит, что она может прекратить дублирование. Просто укажите полный адрес сайта в значении директивы (с www или без). Однако не забывайте, что эта директива работает только с Яндексом, а для остальных поисковиков вам придется прописывать 301 редирект.
Здесь перечислены основные директивы robots.txt. Есть еще несколько, но их почти никто не использует. Можете почитать про них в интернете.