Как оформить CMS и хостинг под IndexNow и AI-ботов
Техническое руководство по подготовке CMS и хостинга к IndexNow и AI-краулерам: robots.txt, sitemap, server logs, кеширование, WAF, статусы, SSR, CDN и мониторинг.
IndexNow и AI-боты решают разные задачи, но в GEO-оптимизации их нужно настраивать вместе. IndexNow помогает быстрее сообщать поисковым системам об изменениях страниц. AI-боты и поисковые краулеры извлекают контент, который затем может использоваться в ответах, обзорах, AI Overviews, Perplexity, ChatGPT Search, Copilot и других интерфейсах. Если CMS отправляет устаревшие URL, хостинг блокирует краулеров, а WAF показывает CAPTCHA, AI просто не получит ваши данные.
Техническая GEO-готовность сайта - это не один файл robots.txt. Это цепочка: CMS создает правильные URL, sitemap отражает важные страницы, IndexNow отправляет изменения, сервер быстро отдает HTML, CDN не ломает доступ, логи показывают обход, а контент содержит структурированные факты.
Что должна уметь CMS
CMS должна фиксировать события, которые важны для индексации. Не все изменения равны. Если редактор поправил опечатку в старой статье, это полезно, но не критично. Если изменилась цена товара, наличие, тариф, условия доставки, описание услуги, FAQ или документация API, это нужно быстро показать поисковым системам и AI-экосистеме.
Минимальный набор событий:
| Событие | Что отправлять |
|---|---|
| публикация страницы | новый URL в sitemap и IndexNow |
| обновление важного контента | URL страницы |
| изменение цены или наличия | URL товара и категории |
| снятие с публикации | URL для переобхода и корректного статуса |
| обновление FAQ | URL страницы с FAQ |
| изменение документации | URL раздела и конкретной страницы |
| изменение условий доставки/оплаты | URL служебной страницы |
CMS не должна отправлять в IndexNow мусор: страницы поиска, фильтры с параметрами, корзину, личный кабинет, UTM-дубли, сортировки, бесконечную пагинацию. Иначе вы создаете шум и снижаете качество сигналов.
Sitemap.xml: карта, а не свалка
Sitemap должен включать только канонические URL, которые вы хотите видеть в индексе и AI-ответах. Для крупного сайта лучше разделить sitemap по типам:
sitemap-pages.xmlдля статических страниц;sitemap-blog.xmlдля статей;sitemap-products.xmlдля товаров;sitemap-categories.xmlдля категорий;sitemap-docs.xmlдля документации;sitemap-images.xml, если изображения важны для товара или бренда.
Поле lastmod должно отражать реальное существенное обновление. Не обновляйте lastmod каждый день автоматически для всех страниц. Поисковые системы и краулеры быстро начинают игнорировать такой сигнал. Если изменился только блок «похожие товары», это не всегда существенное изменение. Если обновились цена, наличие, характеристики, тарифы или инструкция, lastmod оправдан.
IndexNow: как внедрять без хаоса
IndexNow лучше подключать через очередь. CMS добавляет измененный URL в очередь, воркер отправляет пакет URL, сохраняет статус, повторяет ошибки и ограничивает частоту. Это надежнее, чем синхронно дергать API при каждом сохранении страницы.
Практическая схема:
- Редактор или интеграция меняет страницу.
- CMS определяет канонический URL.
- URL попадает в очередь IndexNow.
- Очередь дедуплицирует URL за короткий период.
- Воркер отправляет пакет.
- Логи сохраняют код ответа, время и источник события.
Для ecommerce особенно важно дедуплицировать обновления. Если остатки меняются каждые пять минут, не нужно отправлять один и тот же товар сотни раз в день. Группируйте изменения и отправляйте только итоговые URL с разумным интервалом.
Robots.txt для AI-ботов
Robots.txt должен быть понятным. Не надо создавать огромный файл с сотнями случайных правил, которые никто не поддерживает. Разделите логику: публичный контент открыт, технические зоны закрыты.
Пример базового подхода:
User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /search
Disallow: /*?sort=
Disallow: /*?utm_
Sitemap: https://example.com/sitemap.xml
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /Этот пример не универсален. На некоторых сайтах фильтры дают важные посадочные страницы. Тогда их нужно канонизировать и открывать выборочно. На других сайтах фильтры создают миллионы дублей. Тогда их нужно закрывать.
Главное правило: не блокируйте CSS, JS и изображения, если они нужны для понимания страницы, но не позволяйте краулерам бесконечно обходить параметры и технические маршруты.
Хостинг, CDN и WAF
Многие проблемы AI-индексации находятся не в CMS, а на уровне инфраструктуры. Сайт может отлично открываться у пользователя, но блокировать бота.
Проверьте:
| Компонент | Риск |
|---|---|
| WAF | JS-челлендж или CAPTCHA для неизвестных user-agent |
| CDN | агрессивный rate limit, кеш старого HTML |
| геофильтры | блокировка дата-центров, откуда приходят краулеры |
| TLS | ошибки цепочки сертификатов |
| HTTP/2/3 | нестабильные ответы для некоторых клиентов |
| gzip/brotli | некорректная компрессия |
| redirects | цепочки 301/302 больше 2-3 переходов |
| origin | высокий TTFB при обходе без кеша |
Не делайте исключения «для всех ботов» бездумно. Делайте наблюдаемые правила: whitelist известных поисковых user-agent после верификации, отдельные лимиты для публичных страниц, блокировка агрессивных неизвестных скраперов, логирование с причиной блокировки.
SSR, SSG и prerendering
Если сайт построен как SPA, AI-краулер может получить пустой контейнер и набор JS-файлов. Некоторые системы умеют рендерить JavaScript, но полагаться на это рискованно. Для важных страниц нужен HTML, который уже содержит основной контент.
Приоритет для SSR/SSG:
- главная;
- страницы услуг;
- категории;
- карточки товаров;
- статьи;
- FAQ;
- документация;
- страницы сравнений и альтернатив;
- страницы тарифов;
- страницы о компании и контактов.
Если полный SSR невозможен, используйте prerendering для ключевых URL. Но не подменяйте контент для ботов. Cloaking - плохая идея: AI и поисковые системы должны видеть то же содержание, что и пользователь.
Server logs: единственный источник правды
Проверки через онлайн-инструменты полезны, но логи важнее. Только логи показывают, кто реально приходил, какие URL запрашивал, какой статус получил, сколько байт скачал и как часто возвращался.
Смотрите user-agent:
- Googlebot;
- Bingbot;
- YandexBot;
- GPTBot;
- ChatGPT-User;
- ClaudeBot;
- PerplexityBot;
- Applebot;
- Bytespider;
- других ботов, релевантных вашей аудитории.
Для каждого сегмента отвечайте на вопросы:
| Вопрос | Зачем |
|---|---|
| Какие URL посещают? | понимаете глубину обхода |
| Какие статусы получают? | находите 403, 404, 5xx |
| Какой TTFB? | видите таймауты |
| Есть ли повторные запросы? | оцениваете интерес к разделу |
| Доходят ли до важных страниц? | проверяете внутренние ссылки и sitemap |
Если AI-боты видят только robots.txt и главную, проблема в доступности, ссылках или интересе к домену. Если они обходят страницы, но бренд не появляется в ответах, проблема может быть в контенте, авторитетности или конкурентном окружении.
Структурированные данные
Техническая доступность нужна, но AI также должен понимать сущности. Добавьте JSON-LD для основных типов страниц:
| Страница | Schema.org |
|---|---|
| главная | Organization, WebSite |
| статья | Article, FAQPage |
| товар | Product, Offer, AggregateRating |
| услуга | Service, FAQPage |
| категория | CollectionPage, ItemList |
| хлебные крошки | BreadcrumbList |
| страница сравнения | Product/Service, ItemList, FAQPage |
Разметка должна совпадать с видимым контентом. Не добавляйте рейтинги без отзывов, цену без видимой цены, наличие без фактического наличия. AI может использовать эти данные, но противоречия снижают доверие.
Юридический и брендовый контур
Разрешение AI-ботов - не только технический вопрос. Нужно согласовать политику с юристами, безопасностью и маркетингом. Некоторые компании хотят открывать только справочный и коммерческий контент, но закрывать обучающие материалы, исследования или пользовательский контент. Это допустимо, если правила осознанные.
Зафиксируйте:
- какие типы контента можно использовать в AI-ответах;
- какие разделы закрыты всегда;
- какие боты разрешены;
- кто отвечает за изменения robots.txt;
- как проверяются логи и инциденты;
- как обрабатываются устаревшие или ложные AI-ответы о бренде.
Как связать технику с GEO-метриками
После настройки CMS, IndexNow, robots.txt и хостинга не останавливайтесь на зеленом чек-листе. Цель - не просто «бот получил 200 OK». Цель - чтобы AI понял и процитировал ваш бренд.
Измеряйте:
- долю целевых промптов, где бренд упоминается;
- среднюю позицию в списке рекомендаций;
- цитируемые домены;
- корректность описания продукта;
- появление конкурентов рядом;
- динамику после обновлений страниц.
GEO Scout на geoscout.pro связывает техническую готовность сайта с фактическими AI-ответами, потому что показывает, какие бренды и источники появляются в выдаче моделей после изменений в CMS, контенте и доступности для краулеров.
План настройки на две недели
День 1-2: соберите карту важных URL, проверьте sitemap, canonical, robots.txt и статусы.
День 3-4: настройте логи по ботам, проверьте WAF, CDN, rate limits, CAPTCHA и редиректы.
День 5-6: подключите IndexNow через очередь, настройте дедупликацию и логирование отправок.
День 7-8: проверьте SSR/SSG или prerendering для ключевых страниц, уберите зависимость важного контента от клиентского JS.
День 9-10: добавьте или исправьте Schema.org для основных типов страниц.
День 11-12: откройте нужный публичный контент для AI-ботов, закрыв технические и приватные зоны.
День 13-14: запустите мониторинг AI-промптов, зафиксируйте baseline и составьте список контентных доработок.
CMS и хостинг - это фундамент GEO. Если краулер не может быстро и стабильно получить страницу, никакая контентная стратегия не сработает. Но фундамент сам по себе не строит видимость. После технической настройки нужно создавать страницы, которые отвечают на вопросы выбора, и проверять, действительно ли AI использует ваш сайт как источник.
Частые вопросы
Что важнее: IndexNow или sitemap.xml?
Нужно ли разрешать всех AI-ботов в robots.txt?
Может ли WAF или CDN мешать AI-ботам?
Как понять, что IndexNow работает?
Что делать, если сайт рендерится только через JavaScript?
Как измерять AI-видимость после технической настройки?
Похожие статьи
GEO для Битрикс: как подготовить сайт на 1С-Битрикс к AI-поиску
Практическое руководство по GEO-оптимизации сайтов на 1С-Битрикс: индексация, ЧПУ, Schema.org, IndexNow, robots.txt, кеширование, карточки товаров и мониторинг AI-видимости.
Cloudflare AI Audit и Bot Management: как управлять AI-ботами на сайте
Разбор Cloudflare AI Audit и Bot Management: как понять, какие AI-боты ходят на сайт, что разрешать, что блокировать и как монетизировать crawl.
Лог-анализ AI-ботов: GPTBot, ClaudeBot, PerplexityBot и OAI-SearchBot
Полный разбор AI-ботов в логах сайта: user-agent, IP-диапазоны, частота обхода, что индексируется и как управлять через robots.txt и firewall.