🤖 Robots.txt: что это, зачем нужен и как правильно его настроить
Файл robots.txt — один из ключевых технических элементов SEO-оптимизации. Его задача — регулировать взаимодействие поисковых роботов с сайтом, указывая, какие страницы можно индексировать, а какие нужно исключить из поиска.
Правильно настроенный robots.txt помогает ускорить индексацию, избавиться от дублей, снизить нагрузку на сервер и улучшить качество выдачи по вашему проекту. Ошибки в нём, наоборот, могут привести к выпадению важных страниц из индекса и серьёзным потерям трафика.
В этой статье разберём, как работает robots.txt, что в нём обязательно должно быть и какие распространённые ошибки стоит избегать.
🧩 Что такое robots.txt?
Robots.txt — это текстовый файл, расположенный по адресу:
https://site.ru/robots.txt
При первом визите поисковик всегда считывает этот файл. На основе его содержимого робот понимает:
- какие разделы и страницы можно сканировать;
- что запрещено к индексации;
- где находится
sitemap.xml; - какие URL-параметры нужно игнорировать;
- какое зеркало сайта считать основным (для Яндекса — через директиву
Host); - как часто и с какой нагрузкой посещать сайт.
🔍 Основные директивы robots.txt
User-agent
Указывает, какому роботу предназначены правила.
User-agent: *
* — значит, правила применяются ко всем роботам. Можно задавать настройки отдельно:
User-agent: Yandex
Disallow: /search/
Allow / Disallow
Управляют доступом к разделам сайта.
Разрешить:
Allow: /catalog/
Запретить:
Disallow: /cart/
Disallow: /admin/
Disallow: /login/
Disallow: /search/
Важно: запрещённые страницы не скрываются от пользователей — они просто не индексируются.
Sitemap
Указывает путь к карте сайта.
Sitemap: https://site.ru/sitemap.xml
Без этого поисковики индексируют сайт дольше и менее корректно.
Clean-param (только для Яндекса)
Позволяет удалить параметры из URL, чтобы избежать дублей. Например, UTM-метки:
Clean-param: utm_source&utm_medium&utm_campaign /
Так поисковику не нужно индексировать тысячи вариаций одной страницы.
Host (только Яндекс)
Определяет основное зеркало сайта.
Host: site.ru
Если указано неверно — возможны проблемы с индексацией и выпадение страниц.
Crawl-delay
Задаёт задержку между обходами страниц.
Crawl-delay: 1
Используется, если сайт плохо выдерживает нагрузку. Но слишком большое значение замедлит индексацию.
✔ Пример корректного robots.txt
User-agent: *
Allow: /
Disallow: /cart/
Disallow: /admin/
Disallow: /login/
Disallow: /search/
Clean-param: utm_source&utm_medium&utm_campaign /
Sitemap: https://site.ru/sitemap.xml
Host: https://site.ru
Такой вариант подходит большинству коммерческих сайтов и интернет-магазинов.
⚠ Самые распространённые ошибки в robots.txt
❌ 1. Закрыт весь сайт
Самая опасная ошибка:
Disallow: /
После этого поисковики вообще не смогут индексировать страницы.
❌ 2. Отсутствует ссылка на sitemap.xml
Без карты сайта индексация будет медленной и неполной.
❌ 3. Закрыты важные разделы каталога
Иногда по ошибке закрывают:
- категории;
- карточки товаров;
- фильтры;
- постраничную навигацию.
Это приводит к потере трафика.
❌ 4. Закрытие CSS и JS
Раньше это делали, сейчас — категорически нельзя. Без CSS и JS поисковики видят «ломаную» версию страницы, и позиции падают.
❌ 5. Неправильный Host
Часто указывают www.site.ru, хотя основное зеркало — site.ru, или наоборот.
❌ 6. Использование robots.txt для скрытия данных
Robots.txt — публичный файл. Скрывать в нём:
- персональные данные;
- конфиденциальные URL;
- доступы и служебные пути — нельзя.
💡 Рекомендации по настройке robots.txt
- проверяйте файл после обновлений сайта;
- тестируйте директивы в Яндекс.Вебмастер и Google Search Console;
- обязательно подключайте
sitemap.xml; - используйте
Clean-paramна проектах с большим количеством параметров (магазины, фильтры); - не закрывайте важные коммерческие страницы;
- проверяйте файл перед запуском сайта — ошибки встречаются даже у крупных проектов.
🎯 Заключение
Файл robots.txt — это фундамент технической оптимизации сайта. При правильной настройке он помогает поисковым роботам быстрее и точнее индексировать страницы, уменьшает количество дублей и улучшает качество выдачи.
Но одна неверная строчка может полностью «сломать» SEO, поэтому настройка robots.txt всегда должна выполняться внимательно и профессионально.
СКАЧАТЬ чек лись по robots.txt
⚡️ SEO-pulse: Подписывайтесь на наш телеграмм канал (t.me/seo_puls) 📈
👉 Подписываемся на мои ресурсы SEO-pulse и не забываем комментировать.
✅ Телеграмм — https://t.me/seo_puls
✅ Дзен — https://dzen.ru/seo_pulse
✅ Сайт — https://seo-pulse.ru