robots.txt для WordPress и AI-ботов: как открыть нужные страницы и не сломать GEO
Практическая настройка robots.txt в WordPress для OAI-SearchBot, GPTBot, ClaudeBot, PerplexityBot и других AI-ботов. Что разрешать, что закрывать и как проверять влияние на AI-видимость.
WordPress удобен для публикации контента, но его типовая архитектура не всегда удобна для AI-краулеров. У сайта могут быть архивы тегов, страницы автора, RSS, внутренний поиск, пагинация, UTM-параметры, preview-ссылки, REST API и десятки технических путей от плагинов. Если всё открыть без контроля, AI-боты получают шум. Если всё закрыть «на всякий случай», сайт теряет шанс стать источником в ChatGPT, Perplexity, Google AI и других ответных системах.
Поэтому настройка robots.txt для WordPress должна отвечать не на вопрос «пускать AI или нет», а на более точный вопрос: какие URL помогают модели понять бренд, продукт, экспертность и коммерческое предложение, а какие только создают дубли.
Что AI-ботам нужно видеть на WordPress-сайте
Для GEO важны страницы, которые могут быть использованы как фактические источники:
- экспертные статьи и руководства;
- страницы услуг и продуктов;
- страницы категорий, если они содержат полезные описания;
- FAQ и база знаний;
- страницы «О компании», авторы, команда, контакты;
- сравнения, кейсы, обзоры, инструкции;
- pricing page, если она есть на WordPress.
AI-системы не обязаны читать сайт как человек. Они извлекают факты, сущности, связи и доказательства. Чем меньше технического мусора между ними и полезными страницами, тем выше шанс корректной интерпретации.
Что обычно закрывать
Типовой WordPress создаёт много путей, которые не нужны в AI-ответах:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /*?s=
Disallow: /*?replytocom=
Disallow: /*preview=true
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://example.com/sitemap_index.xmlЭто базовый слой, а не финальная политика. Если блог использует полезные страницы тегов или категорий, их не стоит закрывать автоматически. Если WooCommerce-магазин держит важные продуктовые категории, они должны быть доступны. Если сайт использует headless WordPress, нужно отдельно проверить, какие URL реально отдаются публично.
Как разделять AI-ботов
Главная ошибка — ставить общий запрет для всех ботов, в названии которых есть AI или GPT. У разных агентов разная роль. OAI-SearchBot нужен для поискового сценария ChatGPT. GPTBot связан с обходом для обучения. ChatGPT-User может приходить при действии пользователя. PerplexityBot, ClaudeBot и другие агенты также могут использоваться для поиска, retrieval или индексации.
Если политика компании разрешает участие в AI-поиске, но не разрешает обучение, можно использовать раздельную конфигурацию:
User-agent: OAI-SearchBot
Allow: /
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /*preview=true
User-agent: GPTBot
Disallow: /
User-agent: PerplexityBot
Allow: /
Disallow: /wp-admin/
Disallow: /wp-login.php
User-agent: ClaudeBot
Allow: /
Disallow: /wp-admin/
Disallow: /wp-login.phpТакой файл не является универсальной рекомендацией для всех бизнесов. Это пример логики: поиск и обучение не нужно смешивать. Для медиа, SaaS, e-commerce и закрытых экспертных порталов политика будет разной.
Особенности WordPress-плагинов
robots.txt может формироваться несколькими слоями:
- физическим файлом в корне сайта;
- виртуальным robots.txt WordPress;
- SEO-плагином;
- плагином безопасности;
- CDN или reverse proxy;
- правилами хостинга.
Из-за этого команда может «изменить robots.txt», но фактически отдавать другой файл. После любых правок нужно открыть https://domain.com/robots.txt в браузере, проверить HTTP-статус, заголовки кэша и содержимое. Если сайт за Cloudflare, проверьте, не подменяет ли CDN ответ и не блокирует ли verified bots на уровне WAF.
WooCommerce внутри WordPress
Если WordPress используется как магазин, правило становится тоньше. Не закрывайте продуктовые карточки, категории, страницы доставки, оплаты и возврата. Эти URL нужны AI для ответов вроде «где купить», «сколько стоит доставка», «есть ли возврат», «какой магазин лучше». Закрывать стоит корзину, checkout, личный кабинет, фильтры с параметрами и внутренние результаты поиска.
Хорошая структура:
/product/открыт;/product-category/открыт, если есть уникальные описания;/cart/,/checkout/,/my-account/закрыты;- параметры сортировки и фильтрации закрыты или канонизированы;
- sitemap содержит только индексируемые коммерческие URL.
Как проверять результат
Техническая проверка включает:
- Открыть
/robots.txtи убедиться, что правила реально применились. - Проверить sitemap и canonical на ключевых страницах.
- Посмотреть серверные логи по user-agent.
- Убедиться, что CDN не отдаёт 403 важным AI-ботам.
- Через 2-4 недели сравнить AI-видимость по целевым prompts.
Последний пункт часто пропускают. Но robots.txt не существует ради самого файла. Он должен помогать сайту быть доступным как источник. В GEO Scout можно создать кластер prompts про бренд, категорию, сравнение и выбор поставщика, затем смотреть, растут ли упоминания и cited sources после настройки WordPress.
Мини-чек-лист
- Важные статьи, услуги, продукты, FAQ и страницы доверия открыты.
- Админка, логин, preview, внутренний поиск и приватные зоны закрыты.
- OAI-SearchBot и GPTBot не смешаны в одной политике.
- SEO-плагин не перезаписывает файл неожиданно.
- Sitemap указан и содержит только полезные индексируемые URL.
- CDN и WAF не блокируют нужных verified bots.
- Изменения проверяются по логам и AI-видимости, а не только по валидатору.
robots.txt для WordPress — это не разовая техническая галочка. Это часть политики доступа к знаниям сайта. Если вы хотите, чтобы AI-системы корректно понимали бренд, им нужно дать чистый и управляемый маршрут к полезным страницам.
Частые вопросы
Нужно ли WordPress-сайту отдельно настраивать robots.txt для AI-ботов?
Можно ли запретить GPTBot и оставить сайт доступным для поиска ChatGPT?
Какие разделы WordPress обычно стоит закрыть?
Влияют ли SEO-плагины на robots.txt?
Как проверить, что AI-боты действительно заходят на WordPress-сайт?
Похожие статьи
Как оформить CMS и хостинг под IndexNow и AI-ботов
Техническое руководство по подготовке CMS и хостинга к IndexNow и AI-краулерам: robots.txt, sitemap, server logs, кеширование, WAF, статусы, SSR, CDN и мониторинг.
OAI-SearchBot, GPTBot и robots.txt: как управлять доступом AI к сайту
Чем отличаются OAI-SearchBot, GPTBot и ChatGPT-User, как настраивать robots.txt без путаницы и как не закрыть сайт от поиска ChatGPT случайно.
GEO для WordPress: как оптимизировать сайт на WP для попадания в ответы нейросетей
Пошаговое руководство по GEO-оптимизации WordPress-сайта: плагины для Schema.org, настройка llms.txt, оптимизация контента, robots.txt для AI-ботов, скорость загрузки и практический чек-лист.