Robots.txt: Что это?
Robots.txt или по-другому «индексный файл» является, по сути, текстом в кодировке UTF-8 (в других вариациях считка будет неправильной), он дает роботам поисковых систем «наводку», что следует, в первую очередь, сканировать на сайте. Файл работает для FTP, http, https протоколов. Все, что указано в robots.txt действует только там (порт, протокол, хост), где он размещен.
Robots.txt помещают в корень и после публикации должен быть доступен по такому адресу: https: //site.com.ru/robots.txt.
В иных местах/файлах нужно прописывать ВОМ (Byte Order Mark), этот юникод необходимо для указания очередности байтов при считывании данных. U+FEFF - его символ-код.
Вес Robots.txt должен составлять не более 500 Кб. Такие ограничения введены Google.
Роботы поисковиков, когда обрабатывают данные robots.txt, получают одну из 3-х инструкций по доступу:
- «Частичный» – робот может отсканировать только отдельные элементы и страницы сайта
- «Полный» – роботу открыт доступ ко всему содержимому сайта
- «Запрет» – роботу полностью закрыт доступ к сканированию.
Вот варианты ответов при сканировании, которые получат поисковые роботы:
- 2xx - успешное сканирование;
- 3xx - переадресация робота поисковика вплоть до получения иного ответа. Пять неудачных попыток и появляется 404 - ошибка;
- 4xx - сканируется весь сайт со всем содержимым – так считает робот;
- 5xx - такое ответ говорит о полном запрете сканирования и позиционируется, как ошибка сервера (временная). Поисковый робот будут возвращаться к этому файлу, пока ответ не будет другим. В случае, когда страница дает ответ «5хх» вместе ошибки 404, то робот обработает ее вместе с этим кодом.
Данных о том, как robots.txt обрабатывает файлы, которые недоступны из-за того, что у сервера проблемы подключения к сети, пока не существует.
Robots.txt: Для чего нужен
Есть ситуации и страницы сайтов, которые поисковым роботам не нужно видеть и посещать:
- Админ-страницы;
- Личная информация пользователей;
- Результаты поиска;
- Зеркала (сайтов).
Robots.txt работает в качестве фильтра, который отводит робота-поисковика от файла, который не надо видеть всем. Без индексного сайта эта информация (конфиденциальная) может попасть в выдачу поисковой системы. Однако тут есть небольшой, но принципиальный момент.
Важно! robots.txt, существует вероятность, что она появится в выдаче, если на неё была найдена ссылка внутри сайта или где-то на внешнем ресурсе.
Robots.txt: Алгоритм написания
Robots.txt пишется в любом редакторе для текстов. Важно соблюсти правила. User-agent и Disallow – основные, остальные (их немало) - второстепенные.
User-agent – гид для поисковых роботов, которых насчитывается свыше 300, на что нужно обратить внимание в robots.txt. Его часто пишут только для считки главным роботом поисковиком.
Главный для Google - Googlebot.
Специализированые Google-robots:
- Для сервиса Google-AdSense - Mediapartners-Google;
- Для оценки качества страниц (целевых)- AdsBot-Google;
- Для изображений - Googlebot-Image;
- Для видеоряда - Googlebot-Video;
- Мобильная версия - Googlebot-Mobile.
Disallow - рекомендует роботам, что нужно сканнировать на сайте. С его помощью, можно либо полностью открыть сайт для скнирования либо полностью запретить.
Важно! Это правила обычно используется, когда сайт в доработке и не нужно, чтобы его выдавал поисковик. Disallow «отключают», сразу после окончания работы на сайте, когда он готов к посещению пользователями. Вебмастера это частенько забывают сделать.
Allow - еще одно разрешительное правило. Прописывается, когда роботов-поисковиков нужно направить на определенные страницы (/catalog), а остальное содержимое для них осталось закрытым.
Disallow и Allow применяются последовательно и отсортировываются в зависимости от длины (префикса) URL (от меньшего к большему). Если для страницы подходит несколько правил, робот выбирает последнее правило в отсортированном списке.
Sitemap - сообщает роботам-поисковикам, что то, что нужно проиндексировать расположено по adress: https: //site.ru/sitemap.xml. Проводя регулярный «обход» робот-поисковик,усмотрев изменения в данном файле тут же изменит информацию о нем в базе данных. Тут принципиально важно грамотно написать файл с этим правлом.
Crawl-delay - (параментр) секундомер, посредством которого задается временной промежуток, по завершению которого начнет загружаться сайт (страницы).
Важно! Это правило для слабых серверов и актуально для всех поисковиков, кроме Google.
Clean-param – помогает избегать дублирования контента на сайте (он может находиться на адресах (со знаком «? »). Эти адреса проявляются при различных id-сессиях, сортировках и т.п.
«/, *, $, #» - основные символы robots.txt
При создании (написании) robots.txt применяется специальный набор символов
«/» - слэш. С его помощью вебматер показывает, что файл закрыт для роботов. Если такой символ в единственном числе прописан в Disallow это означает, что запрет наложен на сканирование всего сайта. мы запрещаем сканировать весь сайт. Два знака слэш запрещают скан отдельной категории.
«*» - звездочка указывает на возможность прописать символы в любой последовательности в файле. Ее ставят после каждой инструкции.
«$» - знак доллара. Это ограничитель для звездочки.
«#» - решетка. Применяется, когда вебмастер хочет оставить комментарий, который не нужно читать широкому пользователю и робот его пропустить.
Проверка robots.txt
По завершению написания robots.txt нужно проверить его правильность. Это делается через инструмент для вебмастеров в Google. Нужно перейти по ссылке и затем в указанную форму ввести исходный код файла и указать сайт, который нужно проверить. Просто введите исходный код файла robots.txt в форму по ссылке и укажите проверяемый сайт.
Ошибки, которых нужно избегать robots.txt
Вот ошибки, которые допускаются при заполнении robots.txt чаще всего из-за спешки или невнимательности.
- путанные перепутанные правила/инструкции;
- попадание в одну инструкцию Disallow сразу нескольких записей директорий/папок;
- ошибочное написание самого индексного файла. Допустимо лишь прописными буквами robots.txt. Использование заглавных в любом месте так Robots.txt или так ROBOTS.TXT – ЗАПРЕЩЕНО!
- запрещено добавлять в robots.txt страницы, которых там не должно быть;
- User-agent всегда нужно заполнять. Оставлять его пустым нельзя;
- лишние символы приводят к ошибкам в сканировании поисковыми роботами.
Случаи нестандартного использования robots.txt
Индексный файл, помимо главной задачи, может стать площадкой для поиска новых сотрудников (в первую очередь, SEO-специалистов и креатива. Вплоть до рекламного блока.
Итог:
Robots.txt помимо главной функции по определению инструкций для роботов поисковиков, позволяет ресурсу искать новых сотрудников, рекламировать свою компанию, экспериментировать и постоянно совершенствоваться. Главное, не делать ошибок.