Checklist AI Crawler Readiness: готов ли сайт к GPTBot, OAI-SearchBot и другим ботам

Многие GEO-проблемы выглядят как контентные, но начинаются на техническом уровне. Команда пишет статьи, обновляет страницы услуг, добавляет FAQ, а AI всё равно не упоминает бренд. При проверке оказывается, что важные URL не попали в sitemap, сервер отдаёт 403 неизвестным ботам, страница рендерится только после JavaScript, CDN агрессивно режет user-agent, а canonical ведёт на старую версию. Этот чек-лист нужен, чтобы отделить технические блокеры от стратегических задач.

1. Политика доступа

Проверьте robots.txt:

файл доступен по /robots.txt;
правила не блокируют весь сайт через Disallow: /;
важные разделы не закрыты случайно;
staging, admin, cart, account и search закрыты осознанно;
sitemap указан явно;
разные user-agent не получают противоречивые правила;
политика для AI-ботов согласована с юридической и маркетинговой стратегией.

Главный вопрос: вы хотите, чтобы AI использовал публичный контент как источник? Если да, нельзя одновременно блокировать все разделы, где есть важные факты о продукте, ценах, условиях и кейсах.

2. Sitemap и URL inventory

Соберите список URL, которые должны быть видимы:

homepage;
category и solution pages;
product/service pages;
pricing;
about;
blog и guides;
FAQ;
comparison и alternatives;
documentation;
локальные страницы;
страницы авторов и экспертов.

Проверьте, что эти URL есть в sitemap, возвращают 200, не canonicalized на другой адрес и не помечены noindex без причины. Если сайт большой, разделите sitemap по типам страниц. Это упростит диагностику и даст понятную карту для поисковых систем.

3. Rendering и HTML

AI-агенты и поисковые краулеры по-разному работают с JavaScript. Безопасная стратегия — отдавать ключевой контент в HTML:

заголовок H1 виден в исходном HTML;
основной текст доступен без клика и скриптов;
таблицы, FAQ и характеристики не загружаются только после интеракции;
ссылки между важными страницами являются обычными <a href>, а не только JS-событиями;
metadata и structured data присутствуют в HTML;
lazy loading не скрывает критический текст;
SSR, SSG или ISR настроены для ключевых страниц.

Если страница выглядит отлично в браузере, это не значит, что её легко прочитать краулеру. Проверяйте исходный HTML, а не только визуальный результат.

4. Коды ответа и стабильность

Для важных URL:

200 для публичных страниц;
301 только для постоянных редиректов;
404 для удалённых страниц;
410 для окончательно удалённого контента, если это ваша политика;
минимум цепочек редиректов;
отсутствие случайных 403/429 для безопасных запросов;
корректные заголовки кеширования;
стабильная работа под нагрузкой.

Случайный 429 из-за слишком строгого rate limit может выглядеть как защита, но для AI-видимости это потеря доступа. Лучше настроить умные лимиты, чем блокировать всё неизвестное.

5. CDN, WAF и bot management

Cloudflare, Akamai, Fastly и другие CDN могут защищать сайт слишком агрессивно. Проверьте:

challenge pages не показываются публичным контентным URL;
bot fight mode не ломает чтение HTML;
правила WAF не блокируют нормальные GET-запросы;
геоблокировки не закрывают важные рынки;
known bots обрабатываются отдельно;
логируются причины блокировок;
можно быстро добавить исключение для нужного user-agent или пути.

Не нужно отключать защиту. Нужно понимать, какие страницы должны быть доступны и какие риски вы готовы принять.

6. Structured data

Проверьте наличие и качество разметки:

Organization для компании;
WebSite и BreadcrumbList;
Article для статей;
FAQPage для видимого FAQ;
Product или Service;
Person для авторов;
LocalBusiness для локальных компаний;
Review только при легитимных видимых отзывах.

Разметка должна совпадать с текстом на странице. Если JSON-LD говорит, что у продукта есть функция, которой нет в описании, вы создаёте противоречие.

7. Логи и наблюдаемость

Минимальный набор полей в анализе логов:

Поле	Зачем нужно
User-agent	Определить бота
IP / ASN	Проверить источник
URL	Понять, что обходят
Status code	Найти ошибки
Response time	Найти медленные страницы
Timestamp	Увидеть частоту
Referrer	Иногда помогает в диагностике

Сравнивайте логи с изменениями в AI-ответах. Если бот регулярно обходит documentation, но AI не цитирует её, проблема может быть в структуре контента. Если бот вообще не видит pricing, это технический или ссылочный вопрос.

8. Контентные блокировки

Проверьте, не скрываете ли вы важные факты:

цены только после формы;
FAQ в аккордеоне без HTML-текста;
кейсы в PDF без HTML-версии;
характеристики в изображениях;
отзывы только в виджете;
таблицы сравнения как скриншоты;
важные страницы доступны только после cookie consent.

Для GEO лучше иметь HTML-версию ключевых фактов. PDF, видео и изображения могут дополнять страницу, но не должны быть единственным источником информации.

9. Итоговый чек-лист

FAQ

Нужно ли специально оптимизировать сайт под каждого бота?

Обычно нет. Лучше сделать сайт доступным, быстрым, структурированным и понятным. Индивидуальные правила нужны только при явных проблемах с конкретным crawler или юридической политикой.

Что делать, если боты создают нагрузку?

Настройте rate limits по путям, кеширование, CDN-правила и приоритет доступа. Не блокируйте весь сайт, если проблема только в нескольких тяжёлых разделах.

Поможет ли открытый robots.txt сразу попасть в AI-ответы?

Нет. Это только доступ. Дальше нужны сильные страницы, внешние источники, понятные факты и мониторинг промптов.

Где проверять эффект технических исправлений?

Запустите baseline до правок, затем сравните AI-видимость через 2-6 недель в GEO Scout: Mention Rate, provider coverage, cited sources и конкретные URL.

Частые вопросы

Нужно ли открывать сайт всем AI-ботам?

Не обязательно. Политика доступа должна соответствовать стратегии: если цель — AI-видимость, важные публичные страницы обычно не стоит блокировать без причины; если важна защита контента, доступ можно ограничивать выборочно.

Что важнее: robots.txt или качество контента?

Оба слоя важны. Robots.txt определяет доступ, а качество и структура контента определяют, сможет ли AI использовать страницу после доступа.

Как понять, что AI-боты реально заходят на сайт?

Проверьте server logs или CDN logs по user-agent, IP, URL, кодам ответа и частоте обхода. Затем сопоставьте эти данные с изменениями AI-видимости.