Robots.txt
Robots.txt — текстовый файл, который содержит информацию для индексирования сайта роботами поисковых систем.
Robots.txt размещают в корневой папке сайта. Файл доступен по адресу yоursіte.uа/robots.txt (yоursіte.uа — адрес сайта)
Функции файла
- Allow – разрешает индексацию определенного раздела или файла.
- Disallow – запрещает индексацию.
- User-agent – указывает, к каким именно роботам поисковой системы относятся разрешительные и запрещающие директивы.
Директивы файла
Host – сообщает роботу о главном зеркале сайта.
Host: yоursіte.uа
Если сайт работает на протоколе HTTPS нужно указывать приставку «https://».
Host: https://yоursіte.uа
Sitemap – правило сообщает роботам поисковых систем, что все страницы сайта, обязательные для индексации, находятся в файле Sitemap.xml.
User-agent: Googlebot
Allow: /
sitemap: https://yоursіte.uа/sitemaps.xml
Clean-param – правило для динамических страниц с GET-параметром или страниц с рекламными метками, чтобы избежать индексирования дублирующейся информации.
User-agent: Googlebot
Disallow:
Clean-param: ref /examples/param
Символы в файле
Символы, которые используют в данном файле robots.txt — «/, *, $, #».
«/» – можно показать, что нужно закрыть от индексации. Например, если поставить один слеш в правиле Disallow – запрет на сканирование всего сайта.
Disallow: /
Если использовать два знака – запрет сканирования конкретного раздела.
Disallow: /images/
«*» – имеет значение любой последовательности символов в файле. Например, все роботы не должны индексировать файлы с расширением .png в папке /images/:
User-agent: *
Disallow: /images/*.png$
«$» – нужен для ограничения «*». Для запрета всего содержимого папки folder, но при этом нельзя запретить url-адреса, которые содержат /folder:
User-agent: *
Disallow: /folder$
«#» – используется для комментариев, робот не учитывает их при сканировании сайта.
Как проверить robots.txt
Протестировать файл можно в сервисах Google или других сторонних сервисах (например, Sitechecker).