Checklist AI Crawler Readiness: готов ли сайт к GPTBot, OAI-SearchBot и другим ботам
Технический чек-лист готовности сайта к AI-краулерам: robots.txt, sitemap, SSR, коды ответа, логи, CDN, rate limits, structured data и контент без блокировок.
Многие GEO-проблемы выглядят как контентные, но начинаются на техническом уровне. Команда пишет статьи, обновляет страницы услуг, добавляет FAQ, а AI всё равно не упоминает бренд. При проверке оказывается, что важные URL не попали в sitemap, сервер отдаёт 403 неизвестным ботам, страница рендерится только после JavaScript, CDN агрессивно режет user-agent, а canonical ведёт на старую версию. Этот чек-лист нужен, чтобы отделить технические блокеры от стратегических задач.
1. Политика доступа
Проверьте robots.txt:
- файл доступен по
/robots.txt; - правила не блокируют весь сайт через
Disallow: /; - важные разделы не закрыты случайно;
- staging, admin, cart, account и search закрыты осознанно;
- sitemap указан явно;
- разные user-agent не получают противоречивые правила;
- политика для AI-ботов согласована с юридической и маркетинговой стратегией.
Главный вопрос: вы хотите, чтобы AI использовал публичный контент как источник? Если да, нельзя одновременно блокировать все разделы, где есть важные факты о продукте, ценах, условиях и кейсах.
2. Sitemap и URL inventory
Соберите список URL, которые должны быть видимы:
- homepage;
- category и solution pages;
- product/service pages;
- pricing;
- about;
- blog и guides;
- FAQ;
- comparison и alternatives;
- documentation;
- локальные страницы;
- страницы авторов и экспертов.
Проверьте, что эти URL есть в sitemap, возвращают 200, не canonicalized на другой адрес и не помечены noindex без причины. Если сайт большой, разделите sitemap по типам страниц. Это упростит диагностику и даст понятную карту для поисковых систем.
3. Rendering и HTML
AI-агенты и поисковые краулеры по-разному работают с JavaScript. Безопасная стратегия — отдавать ключевой контент в HTML:
- заголовок H1 виден в исходном HTML;
- основной текст доступен без клика и скриптов;
- таблицы, FAQ и характеристики не загружаются только после интеракции;
- ссылки между важными страницами являются обычными
<a href>, а не только JS-событиями; - metadata и structured data присутствуют в HTML;
- lazy loading не скрывает критический текст;
- SSR, SSG или ISR настроены для ключевых страниц.
Если страница выглядит отлично в браузере, это не значит, что её легко прочитать краулеру. Проверяйте исходный HTML, а не только визуальный результат.
4. Коды ответа и стабильность
Для важных URL:
- 200 для публичных страниц;
- 301 только для постоянных редиректов;
- 404 для удалённых страниц;
- 410 для окончательно удалённого контента, если это ваша политика;
- минимум цепочек редиректов;
- отсутствие случайных 403/429 для безопасных запросов;
- корректные заголовки кеширования;
- стабильная работа под нагрузкой.
Случайный 429 из-за слишком строгого rate limit может выглядеть как защита, но для AI-видимости это потеря доступа. Лучше настроить умные лимиты, чем блокировать всё неизвестное.
5. CDN, WAF и bot management
Cloudflare, Akamai, Fastly и другие CDN могут защищать сайт слишком агрессивно. Проверьте:
- challenge pages не показываются публичным контентным URL;
- bot fight mode не ломает чтение HTML;
- правила WAF не блокируют нормальные GET-запросы;
- геоблокировки не закрывают важные рынки;
- known bots обрабатываются отдельно;
- логируются причины блокировок;
- можно быстро добавить исключение для нужного user-agent или пути.
Не нужно отключать защиту. Нужно понимать, какие страницы должны быть доступны и какие риски вы готовы принять.
6. Structured data
Проверьте наличие и качество разметки:
Organizationдля компании;WebSiteиBreadcrumbList;Articleдля статей;FAQPageдля видимого FAQ;ProductилиService;Personдля авторов;LocalBusinessдля локальных компаний;Reviewтолько при легитимных видимых отзывах.
Разметка должна совпадать с текстом на странице. Если JSON-LD говорит, что у продукта есть функция, которой нет в описании, вы создаёте противоречие.
7. Логи и наблюдаемость
Минимальный набор полей в анализе логов:
| Поле | Зачем нужно |
|---|---|
| User-agent | Определить бота |
| IP / ASN | Проверить источник |
| URL | Понять, что обходят |
| Status code | Найти ошибки |
| Response time | Найти медленные страницы |
| Timestamp | Увидеть частоту |
| Referrer | Иногда помогает в диагностике |
Сравнивайте логи с изменениями в AI-ответах. Если бот регулярно обходит documentation, но AI не цитирует её, проблема может быть в структуре контента. Если бот вообще не видит pricing, это технический или ссылочный вопрос.
8. Контентные блокировки
Проверьте, не скрываете ли вы важные факты:
- цены только после формы;
- FAQ в аккордеоне без HTML-текста;
- кейсы в PDF без HTML-версии;
- характеристики в изображениях;
- отзывы только в виджете;
- таблицы сравнения как скриншоты;
- важные страницы доступны только после cookie consent.
Для GEO лучше иметь HTML-версию ключевых фактов. PDF, видео и изображения могут дополнять страницу, но не должны быть единственным источником информации.
9. Итоговый чек-лист
-
robots.txtдоступен и не блокирует важные разделы. - Sitemap содержит все целевые URL.
- Важные страницы возвращают 200.
- Нет случайных
noindex. - Canonical указывает на правильную страницу.
- Основной контент доступен в HTML.
- Внутренние ссылки являются обычными ссылками.
- CDN/WAF не показывает challenge для контентных URL.
- Structured data валидна и совпадает с текстом.
- FAQ, цены, функции и кейсы видимы без авторизации.
- Логи позволяют увидеть AI-ботов.
- Есть процесс ежемесячной проверки.
FAQ
Нужно ли специально оптимизировать сайт под каждого бота?
Обычно нет. Лучше сделать сайт доступным, быстрым, структурированным и понятным. Индивидуальные правила нужны только при явных проблемах с конкретным crawler или юридической политикой.
Что делать, если боты создают нагрузку?
Настройте rate limits по путям, кеширование, CDN-правила и приоритет доступа. Не блокируйте весь сайт, если проблема только в нескольких тяжёлых разделах.
Поможет ли открытый robots.txt сразу попасть в AI-ответы?
Нет. Это только доступ. Дальше нужны сильные страницы, внешние источники, понятные факты и мониторинг промптов.
Где проверять эффект технических исправлений?
Запустите baseline до правок, затем сравните AI-видимость через 2-6 недель в GEO Scout: Mention Rate, provider coverage, cited sources и конкретные URL.
Частые вопросы
Нужно ли открывать сайт всем AI-ботам?
Что важнее: robots.txt или качество контента?
Как понять, что AI-боты реально заходят на сайт?
Похожие статьи
Cloudflare AI Audit и Bot Management: как управлять AI-ботами на сайте
Разбор Cloudflare AI Audit и Bot Management: как понять, какие AI-боты ходят на сайт, что разрешать, что блокировать и как монетизировать crawl.
Лог-анализ AI-ботов: GPTBot, ClaudeBot, PerplexityBot и OAI-SearchBot
Полный разбор AI-ботов в логах сайта: user-agent, IP-диапазоны, частота обхода, что индексируется и как управлять через robots.txt и firewall.
OAI-SearchBot, GPTBot и robots.txt: как управлять доступом AI к сайту
Чем отличаются OAI-SearchBot, GPTBot и ChatGPT-User, как настраивать robots.txt без путаницы и как не закрыть сайт от поиска ChatGPT случайно.