🎯 Бесплатно: первая проверка AI-видимости за 5 минут, затем обновление раз в 7 днейПопробовать →

Блог
5 мин чтения

robots.txt для WordPress и AI-ботов: как открыть нужные страницы и не сломать GEO

Практическая настройка robots.txt в WordPress для OAI-SearchBot, GPTBot, ClaudeBot, PerplexityBot и других AI-ботов. Что разрешать, что закрывать и как проверять влияние на AI-видимость.

robots.txtWordPressAI-ботыGPTBot
Владислав Пучков
Владислав Пучков
Основатель GEO Scout, эксперт по GEO-оптимизации

WordPress удобен для публикации контента, но его типовая архитектура не всегда удобна для AI-краулеров. У сайта могут быть архивы тегов, страницы автора, RSS, внутренний поиск, пагинация, UTM-параметры, preview-ссылки, REST API и десятки технических путей от плагинов. Если всё открыть без контроля, AI-боты получают шум. Если всё закрыть «на всякий случай», сайт теряет шанс стать источником в ChatGPT, Perplexity, Google AI и других ответных системах.

Поэтому настройка robots.txt для WordPress должна отвечать не на вопрос «пускать AI или нет», а на более точный вопрос: какие URL помогают модели понять бренд, продукт, экспертность и коммерческое предложение, а какие только создают дубли.

Что AI-ботам нужно видеть на WordPress-сайте

Для GEO важны страницы, которые могут быть использованы как фактические источники:

  • экспертные статьи и руководства;
  • страницы услуг и продуктов;
  • страницы категорий, если они содержат полезные описания;
  • FAQ и база знаний;
  • страницы «О компании», авторы, команда, контакты;
  • сравнения, кейсы, обзоры, инструкции;
  • pricing page, если она есть на WordPress.

AI-системы не обязаны читать сайт как человек. Они извлекают факты, сущности, связи и доказательства. Чем меньше технического мусора между ними и полезными страницами, тем выше шанс корректной интерпретации.

Что обычно закрывать

Типовой WordPress создаёт много путей, которые не нужны в AI-ответах:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /*?s=
Disallow: /*?replytocom=
Disallow: /*preview=true
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Allow: /wp-admin/admin-ajax.php
 
Sitemap: https://example.com/sitemap_index.xml

Это базовый слой, а не финальная политика. Если блог использует полезные страницы тегов или категорий, их не стоит закрывать автоматически. Если WooCommerce-магазин держит важные продуктовые категории, они должны быть доступны. Если сайт использует headless WordPress, нужно отдельно проверить, какие URL реально отдаются публично.

Как разделять AI-ботов

Главная ошибка — ставить общий запрет для всех ботов, в названии которых есть AI или GPT. У разных агентов разная роль. OAI-SearchBot нужен для поискового сценария ChatGPT. GPTBot связан с обходом для обучения. ChatGPT-User может приходить при действии пользователя. PerplexityBot, ClaudeBot и другие агенты также могут использоваться для поиска, retrieval или индексации.

Если политика компании разрешает участие в AI-поиске, но не разрешает обучение, можно использовать раздельную конфигурацию:

User-agent: OAI-SearchBot
Allow: /
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /*preview=true
 
User-agent: GPTBot
Disallow: /
 
User-agent: PerplexityBot
Allow: /
Disallow: /wp-admin/
Disallow: /wp-login.php
 
User-agent: ClaudeBot
Allow: /
Disallow: /wp-admin/
Disallow: /wp-login.php

Такой файл не является универсальной рекомендацией для всех бизнесов. Это пример логики: поиск и обучение не нужно смешивать. Для медиа, SaaS, e-commerce и закрытых экспертных порталов политика будет разной.

Особенности WordPress-плагинов

robots.txt может формироваться несколькими слоями:

  • физическим файлом в корне сайта;
  • виртуальным robots.txt WordPress;
  • SEO-плагином;
  • плагином безопасности;
  • CDN или reverse proxy;
  • правилами хостинга.

Из-за этого команда может «изменить robots.txt», но фактически отдавать другой файл. После любых правок нужно открыть https://domain.com/robots.txt в браузере, проверить HTTP-статус, заголовки кэша и содержимое. Если сайт за Cloudflare, проверьте, не подменяет ли CDN ответ и не блокирует ли verified bots на уровне WAF.

WooCommerce внутри WordPress

Если WordPress используется как магазин, правило становится тоньше. Не закрывайте продуктовые карточки, категории, страницы доставки, оплаты и возврата. Эти URL нужны AI для ответов вроде «где купить», «сколько стоит доставка», «есть ли возврат», «какой магазин лучше». Закрывать стоит корзину, checkout, личный кабинет, фильтры с параметрами и внутренние результаты поиска.

Хорошая структура:

  • /product/ открыт;
  • /product-category/ открыт, если есть уникальные описания;
  • /cart/, /checkout/, /my-account/ закрыты;
  • параметры сортировки и фильтрации закрыты или канонизированы;
  • sitemap содержит только индексируемые коммерческие URL.

Как проверять результат

Техническая проверка включает:

  1. Открыть /robots.txt и убедиться, что правила реально применились.
  2. Проверить sitemap и canonical на ключевых страницах.
  3. Посмотреть серверные логи по user-agent.
  4. Убедиться, что CDN не отдаёт 403 важным AI-ботам.
  5. Через 2-4 недели сравнить AI-видимость по целевым prompts.

Последний пункт часто пропускают. Но robots.txt не существует ради самого файла. Он должен помогать сайту быть доступным как источник. В GEO Scout можно создать кластер prompts про бренд, категорию, сравнение и выбор поставщика, затем смотреть, растут ли упоминания и cited sources после настройки WordPress.

Мини-чек-лист

  • Важные статьи, услуги, продукты, FAQ и страницы доверия открыты.
  • Админка, логин, preview, внутренний поиск и приватные зоны закрыты.
  • OAI-SearchBot и GPTBot не смешаны в одной политике.
  • SEO-плагин не перезаписывает файл неожиданно.
  • Sitemap указан и содержит только полезные индексируемые URL.
  • CDN и WAF не блокируют нужных verified bots.
  • Изменения проверяются по логам и AI-видимости, а не только по валидатору.

robots.txt для WordPress — это не разовая техническая галочка. Это часть политики доступа к знаниям сайта. Если вы хотите, чтобы AI-системы корректно понимали бренд, им нужно дать чистый и управляемый маршрут к полезным страницам.

Частые вопросы

Нужно ли WordPress-сайту отдельно настраивать robots.txt для AI-ботов?
Да, если сайт рассчитывает на видимость в AI-поиске. WordPress часто создаёт технические URL, архивы, параметры и служебные страницы, поэтому robots.txt должен открывать полезный контент и закрывать шум.
Можно ли запретить GPTBot и оставить сайт доступным для поиска ChatGPT?
Да. Для этого правила нужно разделять по user-agent: GPTBot относится к обучающему обходу, а OAI-SearchBot связан с поисковым сценарием ChatGPT.
Какие разделы WordPress обычно стоит закрыть?
Обычно закрывают /wp-admin/, служебные параметры, внутренний поиск, корзины, preview URL и дубли. Публичные статьи, страницы услуг, категории и FAQ лучше оставлять доступными для поисковых и AI-краулеров.
Влияют ли SEO-плагины на robots.txt?
Да. Yoast SEO, Rank Math, All in One SEO и плагины безопасности могут генерировать или перезаписывать robots.txt. После изменения настроек нужно проверить фактический файл по адресу /robots.txt.
Как проверить, что AI-боты действительно заходят на WordPress-сайт?
Нужно смотреть серверные логи, логи CDN и ответы по важным prompts. В GEO Scout можно отслеживать, меняются ли упоминания, cited sources и Domain Citation Rate после настройки доступа.