Robots.txt
Robots.txt — текстовий файл, який містить інформацію для індексування сайту роботами пошукових систем.
Robots.txt розміщують у кореневій папці сайту. Файл доступний за адресою yоursіte.uа/robots.txt (yоursіte.uа — адрес сайта)
Функції файлу
- Allow – дозволяє індексацію певного розділу чи файла.
- Disallow – забороняє індексацію.
- User-agent – вказує, до яких саме роботів пошукових систем належать дозвільні та заборонні директиви.
Директиви файлу
Host – повідомляє роботу про головне дзеркало сайту.
Host: yоursіte.uа
Sitemap – правило повідомляє роботам пошукових систем, що всі сторінки сайту, обов’язкові для індексації, знаходяться у файлі Sitemap.xml.
User-agent: Googlebot
Allow: /
sitemap: https://yоursіte.uа/sitemaps.xml
Clean-param – правило для динамічних сторінок з GET-параметром або сторінок з рекламними мітками, щоб уникнути індексування інформації, що дублюється.
User-agent: Googlebot
Disallow:
Clean-param: ref /examples/param
Символи у файлі
Символи, які використовують у файлі robots.txt — «/, *, $, #».
«/» – можна показати, що необхідно закрити від індексації. Наприклад, якщо поставити один слеш у правилі Disallow – заборона сканування всього сайту.
Disallow: /
Якщо використовувати два символи – заборона сканування певного розділу.
Disallow: /images/
«*» – має значення будь-якої послідовності символів у файлі. Наприклад, всі роботи не повинні індексувати файли з розширенням .png у папці /images/:
User-agent: *
Disallow: /images/*.png$
«$» – необхідний для обмеження «*». Для заборони всього вмісту папки folder, але не можна заборонити url-адреси, які містять /folder:
User-agent: *
Disallow: /folder$
«#» – використовується для коментарів, робот не враховує їх при скануванні сайту.
Як перевірити robots.txt
Протестувати файл можна у сервісах Google або інших сторонніх сервісах (наприклад, Sitechecker).