'#99. Черновики : draft';
'Tools_DraftController_actionView';
'#tools_draft_view';

Robots.txt и SEO: что нужно знать в 2026 году

Активен
Информация
ID3440
Краткое названиеRobots.txt и SEO: что нужно знать в 2026 году
Время обновления20-02-2026 в 09:47:51
Описание
Иван Захаров объясняет, как использовать robots.txt для SEO в 2026 году: настройка, примеры, ошибки и современные рекомендации по управлению краулингом и доступом к сайту.
Текст

Почему robots.txt важен

Robots.txt – это набор инструкций для веб-краулеров, который сообщает, что им можно, а что нельзя делать на вашем сайте. Он помогает сохранять приватность определённых частей сайта и избегать индексации неважных страниц. Так вы улучшаете SEO и поддерживаете стабильную работу сайта.

Настройка файла robots.txt

Создать robots.txt достаточно просто. Он использует простые команды для управления поведением краулеров на сайте. Основные команды:

  • User-agent – указывает, какого бота вы таргетируете.
  • Disallow – сообщает, куда бот не может заходить.

Примеры базового использования robots.txt:

Разрешить всем ботам сканировать весь сайт:

User-agent: *
Disallow:

Запретить доступ к папке «Keep Out», разрешив остальное:

User-agent: *
Disallow: /keep-out/

Запретить Googlebot посещать весь сайт (не рекомендуется, но для примера):

User-agent: Googlebot
Disallow: /

Использование шаблонов (wildcards)

Шаблоны (*) полезны для гибкости. Они позволяют применять правила ко множеству ботов или страниц, не перечисляя их по отдельности.

Контроль на уровне страниц

Вы можете блокировать отдельные страницы, а не целые папки, что даёт больше гибкости и точности.

User-agent: *
Disallow: /keep-out/file1.html
Disallow: /keep-out/file2.html

Таким образом ограничиваются только необходимые страницы, а ценный контент остаётся доступным.

Комбинирование команд

Ранее была доступна только команда Disallow, и Google применял самое строгие правило. Сейчас появилась команда Allow, позволяющая точечно управлять индексацией.

Пример – разрешить сканирование только папки «Important»:

User-agent: *
Disallow: /
Allow: /important/

Можно комбинировать команды, чтобы защитить одни файлы и оставить доступными другие:

User-agent: *
Disallow: /private/
Allow: /private/public-file.html

В большинстве случаев robots.txt проще оставить минималистичным. Однако иногда требуются более сложные конфигурации:

  • Если сайт использует URL-параметры для отслеживания кликов, а канонические теги не внедряются, robots.txt поможет избежать дублей.
  • Если появляются случайные низкокачественные URL, можно заблокировать все папки кроме ценных.

Комментарии

Комментарии в robots.txt начинаются с символа #. Я рекомендую указывать дату создания или обновления файла, чтобы проще было отслеживать изменения.

# robots.txt для www.example-site.com – обновлено 22/03/2025
User-agent: *
# запрещаем сканирование низкокачественного контента
Disallow: /bogus-folder/

Управление скоростью сканирования

Чтобы снизить нагрузку на сервер, используйте команду Crawl-delay:

User-agent: *
Crawl-delay: 10

Это заставит ботов ждать 10 секунд между запросами. Современные боты сами регулируют скорость, поэтому команда используется реже.

Ссылка на XML-карту сайта

Хотя Google и Bing рекомендуют добавлять sitemap через Search Console и Webmaster Tools, можно указать ссылку в robots.txt:

User-agent: *
Disallow:
Sitemap: https://www.my-site.com/sitemap.xml

URL должен быть полностью квалифицированным.

Распространённые ошибки при работе с robots.txt

Неправильный синтаксис

Команды должны быть корректными и в правильном порядке. Ошибки могут вызвать неправильное понимание файла ботами. Проверяйте robots.txt через Google Search Console.

Чрезмерное ограничение доступа

Блокировка слишком многих страниц ухудшает индексацию сайта. Думайте о влиянии на видимость и новые AI-сервисы.

Боты не всегда следуют протоколу

Не все пауки соблюдают Robots Exclusion Protocol. Чтобы заблокировать «непослушных» ботов, потребуются другие меры. Помните, что robots.txt не гарантирует исключение страниц из индекса – используйте meta-тег noindex для полной защиты.

Специальные директивы для AI-ботов

Миф о том, что AI-ботам нужны отдельные Allow-директивы, неверен. Большинство AI-краулеров соблюдают REP. Если robots.txt разрешает всем ботам доступ, они его используют. Если запрещает – нет дополнительных команд не нужно.

Простота – залог успеха

Как уже говорилось, лучше держать robots.txt простым. Новые интерпретации делают его мощнее, чем раньше.