Проверка robots.txt: типичные ошибки и как их исправить
Что такое robots.txt и почему он важен
Robots.txt — текстовый файл в корне сайта, который сообщает поисковым роботам, какие страницы и разделы они могут обходить, а какие — нет. Это первый файл, который запрашивает любой поисковый бот при визите на сайт.
Ошибка в robots.txt может закрыть от индексации весь сайт или его критически важные разделы — и вы не сразу это заметите. Именно поэтому проверка robots.txt должна быть первым пунктом любого технического SEO-аудита.
Важно понимать: robots.txt — это рекомендация, а не запрет. Добросовестные поисковики Яндекс и Google соблюдают его директивы, но файл не защищает страницы от попадания в индекс, если на них ведут внешние ссылки. Для реального закрытия контента используйте мета-тег noindex или авторизацию.
Структура файла robots.txt
Файл состоит из блоков, каждый из которых начинается с директивы User-agent, указывающей, для какого бота действуют правила.
Основные директивы:
User-agent: *— правила для всех роботовUser-agent: Yandexbot— только для ЯндексаUser-agent: Googlebot— только для GoogleDisallow: /path/— запрет обхода указанного путиAllow: /path/— явное разрешение обхода (используется вместе с Disallow для уточнений)Sitemap: https://example.ru/sitemap.xml— ссылка на карту сайтаCrawl-delay: 5— пауза между запросами робота в секундах (Яндекс поддерживает, Google — нет)
Как проверить robots.txt онлайн
Файл всегда доступен по адресу https://ваш-домен.ru/robots.txt. Откройте его в браузере и убедитесь, что он существует и содержит правильные правила.
Для более глубокой проверки используйте специализированные инструменты. Проверка robots.txt на seotoolse.ru анализирует файл и выявляет синтаксические ошибки, опасные директивы, конфликты между правилами и другие проблемы. Инструмент также позволяет проверить, закрыт ли конкретный URL от обхода по действующим правилам.
Типичные ошибки в robots.txt
Ошибка 1: Закрытие всего сайта
Самая катастрофическая ошибка — строка Disallow: / для всех агентов. Она полностью закрывает сайт от индексации. Такая запись часто «приезжает» с тестового сервера на продакшн при некорректном деплое.
Правильная конфигурация для открытого сайта:
User-agent: *Disallow:(пустое значение — разрешает всё)
Ошибка 2: Закрытие CSS и JavaScript
Поисковые роботы современных поисковиков (особенно Google) рендерят страницы как браузер — загружают JS и CSS. Если вы закрыли директории со стилями и скриптами, робот видит страницу без оформления и не может корректно её оценить. Удалите строки вида Disallow: /css/, Disallow: /js/, Disallow: /assets/.
Ошибка 3: Конфликт Allow и Disallow
Конфликт возникает, когда одна директива разрешает, а другая запрещает один и тот же URL. Например:
Disallow: /catalog/Allow: /catalog/product-1/
Яндекс и Google по-разному разрешают такие конфликты: Яндекс применяет более специфичное правило, Google — тоже, но с нюансами по длине правила. Проверяйте конкретный URL через инструмент тестирования, а не полагайтесь на логические предположения.
Ошибка 4: Отсутствие robots.txt
Если файл отсутствует, робот получает 404 и считает, что ограничений нет — индексирует всё. Для большинства сайтов это допустимо, но лучше иметь явный файл с указанием Sitemap и настройкой Crawl-delay для Яндекса.
Ошибка 5: Закрытие важных разделов по ошибке
Закрытие /search/, /filter/ или /tag/ — часто правильное решение (чтобы не плодить дубли). Но если по ошибке закрыта страница категории или товара — это прямые потери трафика. Составьте список того, что должно быть закрыто, и сверяйтесь с ним при обновлении файла.
Ошибка 6: Неправильные символы и кодировка
Robots.txt должен быть в кодировке UTF-8, без BOM. Строки заканчиваются символом новой строки. Никаких лишних пробелов после двоеточия (хотя большинство роботов прощают это). Синтаксические ошибки могут привести к тому, что весь блок правил будет проигнорирован.
Что нужно закрывать в robots.txt
Универсального «правильного» robots.txt не существует — файл зависит от структуры вашего сайта. Но есть типичные разделы, которые стоит закрыть от индексации:
- Административная панель:
Disallow: /admin/,Disallow: /wp-admin/ - Страницы поиска по сайту:
Disallow: /search/— они создают тысячи дублей - Фильтры и сортировки в каталоге — если генерируют URL с параметрами и дублируют категории
- Корзина и личный кабинет:
Disallow: /cart/,Disallow: /account/ - Служебные страницы: логи, временные файлы, XML-экспорты для внутреннего использования
Robots.txt и Яндекс: особенности
Яндекс поддерживает ряд нестандартных директив:
Clean-param— указывает параметры URL, которые не влияют на содержимое страницы. Робот Яндекса обходит только один вариант URL, игнорируя параметр. Например:Clean-param: utm_source&utm_mediumCrawl-delay— ограничивает нагрузку на сервер. Полезно для небольших серверов.
Google не поддерживает эти директивы, но и не ломается от их наличия в файле.
Чек-лист проверки robots.txt
- Файл существует и доступен по
/robots.txt - Нет строки
Disallow: /для User-agent: * без исключений - CSS, JS и медиафайлы не закрыты
- Важные страницы (главная, категории, карточки) не попадают под Disallow
- Указана директива Sitemap с актуальным URL
- Файл в кодировке UTF-8 без BOM
- Нет конфликтующих Allow/Disallow для одних и тех же URL
- Проверен каждый конкретный URL через тестировщик
После исправления ошибок
После изменения robots.txt:
- Дождитесь, пока Яндекс и Google перечитают файл (обычно в течение суток).
- В Яндекс.Вебмастере можно ускорить процесс — зайдите в раздел «Инструменты» → «Анализ robots.txt».
- Если вы открыли ранее закрытые страницы — отправьте их на переобход через Яндекс.Вебмастер и Google Search Console.
- Следите за динамикой индексации в течение 2–4 недель.
Зарегистрируйтесь на seotoolse.ru — 1000 токенов бесплатно, без карты.