Почему robots.txt важен
Robots.txt – это набор инструкций для веб-краулеров, который сообщает, что им можно, а что нельзя делать на вашем сайте. Он помогает сохранять приватность определённых частей сайта и избегать индексации неважных страниц. Так вы улучшаете SEO и поддерживаете стабильную работу сайта.
Настройка файла robots.txt
Создать robots.txt достаточно просто. Он использует простые команды для управления поведением краулеров на сайте. Основные команды:
- User-agent – указывает, какого бота вы таргетируете.
- Disallow – сообщает, куда бот не может заходить.
Примеры базового использования robots.txt:
Разрешить всем ботам сканировать весь сайт:
User-agent: * Disallow:
Запретить доступ к папке «Keep Out», разрешив остальное:
User-agent: * Disallow: /keep-out/
Запретить Googlebot посещать весь сайт (не рекомендуется, но для примера):
User-agent: Googlebot Disallow: /
Использование шаблонов (wildcards)
Шаблоны (*) полезны для гибкости. Они позволяют применять правила ко множеству ботов или страниц, не перечисляя их по отдельности.
Контроль на уровне страниц
Вы можете блокировать отдельные страницы, а не целые папки, что даёт больше гибкости и точности.
User-agent: * Disallow: /keep-out/file1.html Disallow: /keep-out/file2.html
Таким образом ограничиваются только необходимые страницы, а ценный контент остаётся доступным.
Комбинирование команд
Ранее была доступна только команда Disallow, и Google применял самое строгие правило. Сейчас появилась команда Allow, позволяющая точечно управлять индексацией.
Пример – разрешить сканирование только папки «Important»:
User-agent: * Disallow: / Allow: /important/
Можно комбинировать команды, чтобы защитить одни файлы и оставить доступными другие:
User-agent: * Disallow: /private/ Allow: /private/public-file.html
В большинстве случаев robots.txt проще оставить минималистичным. Однако иногда требуются более сложные конфигурации:
- Если сайт использует URL-параметры для отслеживания кликов, а канонические теги не внедряются, robots.txt поможет избежать дублей.
- Если появляются случайные низкокачественные URL, можно заблокировать все папки кроме ценных.
Комментарии
Комментарии в robots.txt начинаются с символа #. Я рекомендую указывать дату создания или обновления файла, чтобы проще было отслеживать изменения.
# robots.txt для www.example-site.com – обновлено 22/03/2025 User-agent: * # запрещаем сканирование низкокачественного контента Disallow: /bogus-folder/
Управление скоростью сканирования
Чтобы снизить нагрузку на сервер, используйте команду Crawl-delay:
User-agent: * Crawl-delay: 10
Это заставит ботов ждать 10 секунд между запросами. Современные боты сами регулируют скорость, поэтому команда используется реже.
Ссылка на XML-карту сайта
Хотя Google и Bing рекомендуют добавлять sitemap через Search Console и Webmaster Tools, можно указать ссылку в robots.txt:
User-agent: * Disallow: Sitemap: https://www.my-site.com/sitemap.xml
URL должен быть полностью квалифицированным.
Распространённые ошибки при работе с robots.txt
Неправильный синтаксис
Команды должны быть корректными и в правильном порядке. Ошибки могут вызвать неправильное понимание файла ботами. Проверяйте robots.txt через Google Search Console.
Чрезмерное ограничение доступа
Блокировка слишком многих страниц ухудшает индексацию сайта. Думайте о влиянии на видимость и новые AI-сервисы.
Боты не всегда следуют протоколу
Не все пауки соблюдают Robots Exclusion Protocol. Чтобы заблокировать «непослушных» ботов, потребуются другие меры. Помните, что robots.txt не гарантирует исключение страниц из индекса – используйте meta-тег noindex для полной защиты.
Специальные директивы для AI-ботов
Миф о том, что AI-ботам нужны отдельные Allow-директивы, неверен. Большинство AI-краулеров соблюдают REP. Если robots.txt разрешает всем ботам доступ, они его используют. Если запрещает – нет дополнительных команд не нужно.
Простота – залог успеха
Как уже говорилось, лучше держать robots.txt простым. Новые интерпретации делают его мощнее, чем раньше.
