Проверка robots.txt: типичные ошибки и как их исправить

Что такое robots.txt и почему он важен

Robots.txt — текстовый файл в корне сайта, который сообщает поисковым роботам, какие страницы и разделы они могут обходить, а какие — нет. Это первый файл, который запрашивает любой поисковый бот при визите на сайт.

Ошибка в robots.txt может закрыть от индексации весь сайт или его критически важные разделы — и вы не сразу это заметите. Именно поэтому проверка robots.txt должна быть первым пунктом любого технического SEO-аудита.

Важно понимать: robots.txt — это рекомендация, а не запрет. Добросовестные поисковики Яндекс и Google соблюдают его директивы, но файл не защищает страницы от попадания в индекс, если на них ведут внешние ссылки. Для реального закрытия контента используйте мета-тег noindex или авторизацию.

Структура файла robots.txt

Файл состоит из блоков, каждый из которых начинается с директивы User-agent, указывающей, для какого бота действуют правила.

Основные директивы:

User-agent: * — правила для всех роботов
User-agent: Yandexbot — только для Яндекса
User-agent: Googlebot — только для Google
Disallow: /path/ — запрет обхода указанного пути
Allow: /path/ — явное разрешение обхода (используется вместе с Disallow для уточнений)
Sitemap: https://example.ru/sitemap.xml — ссылка на карту сайта
Crawl-delay: 5 — пауза между запросами робота в секундах (Яндекс поддерживает, Google — нет)

Как проверить robots.txt онлайн

Файл всегда доступен по адресу https://ваш-домен.ru/robots.txt. Откройте его в браузере и убедитесь, что он существует и содержит правильные правила.

Для более глубокой проверки используйте специализированные инструменты. Проверка robots.txt на seotoolse.ru анализирует файл и выявляет синтаксические ошибки, опасные директивы, конфликты между правилами и другие проблемы. Инструмент также позволяет проверить, закрыт ли конкретный URL от обхода по действующим правилам.

Типичные ошибки в robots.txt

Ошибка 1: Закрытие всего сайта

Самая катастрофическая ошибка — строка Disallow: / для всех агентов. Она полностью закрывает сайт от индексации. Такая запись часто «приезжает» с тестового сервера на продакшн при некорректном деплое.

Правильная конфигурация для открытого сайта:

User-agent: *
Disallow: (пустое значение — разрешает всё)

Ошибка 2: Закрытие CSS и JavaScript

Поисковые роботы современных поисковиков (особенно Google) рендерят страницы как браузер — загружают JS и CSS. Если вы закрыли директории со стилями и скриптами, робот видит страницу без оформления и не может корректно её оценить. Удалите строки вида Disallow: /css/, Disallow: /js/, Disallow: /assets/.

Ошибка 3: Конфликт Allow и Disallow

Конфликт возникает, когда одна директива разрешает, а другая запрещает один и тот же URL. Например:

Disallow: /catalog/
Allow: /catalog/product-1/

Яндекс и Google по-разному разрешают такие конфликты: Яндекс применяет более специфичное правило, Google — тоже, но с нюансами по длине правила. Проверяйте конкретный URL через инструмент тестирования, а не полагайтесь на логические предположения.

Ошибка 4: Отсутствие robots.txt

Если файл отсутствует, робот получает 404 и считает, что ограничений нет — индексирует всё. Для большинства сайтов это допустимо, но лучше иметь явный файл с указанием Sitemap и настройкой Crawl-delay для Яндекса.

Ошибка 5: Закрытие важных разделов по ошибке

Закрытие /search/, /filter/ или /tag/ — часто правильное решение (чтобы не плодить дубли). Но если по ошибке закрыта страница категории или товара — это прямые потери трафика. Составьте список того, что должно быть закрыто, и сверяйтесь с ним при обновлении файла.

Ошибка 6: Неправильные символы и кодировка

Robots.txt должен быть в кодировке UTF-8, без BOM. Строки заканчиваются символом новой строки. Никаких лишних пробелов после двоеточия (хотя большинство роботов прощают это). Синтаксические ошибки могут привести к тому, что весь блок правил будет проигнорирован.

Что нужно закрывать в robots.txt

Универсального «правильного» robots.txt не существует — файл зависит от структуры вашего сайта. Но есть типичные разделы, которые стоит закрыть от индексации:

Административная панель: Disallow: /admin/, Disallow: /wp-admin/
Страницы поиска по сайту: Disallow: /search/ — они создают тысячи дублей
Фильтры и сортировки в каталоге — если генерируют URL с параметрами и дублируют категории
Корзина и личный кабинет: Disallow: /cart/, Disallow: /account/
Служебные страницы: логи, временные файлы, XML-экспорты для внутреннего использования

Robots.txt и Яндекс: особенности

Яндекс поддерживает ряд нестандартных директив:

Clean-param — указывает параметры URL, которые не влияют на содержимое страницы. Робот Яндекса обходит только один вариант URL, игнорируя параметр. Например: Clean-param: utm_source&utm_medium
Crawl-delay — ограничивает нагрузку на сервер. Полезно для небольших серверов.

Google не поддерживает эти директивы, но и не ломается от их наличия в файле.

Чек-лист проверки robots.txt

Файл существует и доступен по /robots.txt
Нет строки Disallow: / для User-agent: * без исключений
CSS, JS и медиафайлы не закрыты
Важные страницы (главная, категории, карточки) не попадают под Disallow
Указана директива Sitemap с актуальным URL
Файл в кодировке UTF-8 без BOM
Нет конфликтующих Allow/Disallow для одних и тех же URL
Проверен каждый конкретный URL через тестировщик

После исправления ошибок

После изменения robots.txt:

Дождитесь, пока Яндекс и Google перечитают файл (обычно в течение суток).
В Яндекс.Вебмастере можно ускорить процесс — зайдите в раздел «Инструменты» → «Анализ robots.txt».
Если вы открыли ранее закрытые страницы — отправьте их на переобход через Яндекс.Вебмастер и Google Search Console.
Следите за динамикой индексации в течение 2–4 недель.

Зарегистрируйтесь на seotoolse.ru — 1000 токенов бесплатно, без карты.