Robots Exclusion Protocol (файл Robots.txt - протокол исключения) необходим для того, чтобы указать поисковой машине, какие страницы сайта
индексировать не следует.
Существует много причин, по которым вы можете захотеть это сделать. Например, если страница содержит
какие-то графики или рисунки, но почти не имеет текстового содержимого. Или вы не хотите, чтобы в результате поиска выдавались
закрытые разделы вашего сайта (например, раздел для друзей).
В общем, когда вы задумаетесь о том, как бы сделать так, чтобы
эта страница или этот каталог не попали в индекс поисковой машины, вот тогда вы и вспомните о файле Robots.txt.
Как это работает
Поисковый робот заходит на ваш сайт и проверяет, существует ли файл Robots.txt. Причем делает это он по адресу:
http://имя_вашего_сайта/robots.txt.
То есть, вы должны создать текстовый файл, сохранить его с именем robots и поместить в
корневую директорию сайта. Если робот находит такой файл, то начинает анализировать его инструкции, после чего
решает следовать вашим указаниям или нет (чаще всего он им следует).
Синтаксис файла Robots.txt
Итак, вы создали файл, осталось узнать, что именно сюда писать.
User-agent: *
Это первая строчка указывает, кому адресован файл, т.е. каких роботов касаются последующие инструкции. Например:
* означает "все роботы", а User-agent: Yandex означает "только для робота Yandex".
Следующая строчка Disallow указывает, что именно вы не хотите индексировать:
User-agent: *
Disallow: /
В данном случае мы запретили всем роботам индексировать весь сайт.
Но стоит не поставить слеш, как инструкция поменяет смысл:
User-agent: *
Disallow:
Такая инструкция разрешает всем сайтам индексировать весь сайт.
Если мы хотим запретить индексировать какой-либо каталог (например, папку images), то написать надо так:
User-agent: *
Disallow: /images/
Обратите внимание, название каталога обрамлено слешами с обеих сторон.
Если же мы хотим запретить индексировать отдельный файл (например, exz.html), то написать надо так:
User-agent: *
Disallow: /exz.html
В этом случае слеша в конце быть не должно.
Если вы хотите запретить несколько каталогов или несколько файлов, то для каждого придется написать свою инструкцию.
Никаких перечислений в одной строке быть не может.
Т.е. если запрещаем три каталога (images, cgi-bin, example), то придется написать три строчки:
Если вы захотите запретить все файлы, кроме одного из какого-либо каталога, то возникнет проблема, т.к. такой инструкции нет.
Вам придется вынести этот файл из этого каталога, а потом запретить каталог к индексации.
Как вы уже заметили, синтаксис простой, главное аккуратно все записать.