🎯 Бесплатно: первая проверка AI-видимости за 5 минут, затем обновление раз в 7 днейПопробовать →

Блог
8 мин чтения

Как оформить CMS и хостинг под IndexNow и AI-ботов

Техническое руководство по подготовке CMS и хостинга к IndexNow и AI-краулерам: robots.txt, sitemap, server logs, кеширование, WAF, статусы, SSR, CDN и мониторинг.

IndexNowAI-ботыCMSхостинг
Владислав Пучков
Владислав Пучков
Основатель GEO Scout, эксперт по GEO-оптимизации

IndexNow и AI-боты решают разные задачи, но в GEO-оптимизации их нужно настраивать вместе. IndexNow помогает быстрее сообщать поисковым системам об изменениях страниц. AI-боты и поисковые краулеры извлекают контент, который затем может использоваться в ответах, обзорах, AI Overviews, Perplexity, ChatGPT Search, Copilot и других интерфейсах. Если CMS отправляет устаревшие URL, хостинг блокирует краулеров, а WAF показывает CAPTCHA, AI просто не получит ваши данные.

Техническая GEO-готовность сайта - это не один файл robots.txt. Это цепочка: CMS создает правильные URL, sitemap отражает важные страницы, IndexNow отправляет изменения, сервер быстро отдает HTML, CDN не ломает доступ, логи показывают обход, а контент содержит структурированные факты.

Что должна уметь CMS

CMS должна фиксировать события, которые важны для индексации. Не все изменения равны. Если редактор поправил опечатку в старой статье, это полезно, но не критично. Если изменилась цена товара, наличие, тариф, условия доставки, описание услуги, FAQ или документация API, это нужно быстро показать поисковым системам и AI-экосистеме.

Минимальный набор событий:

СобытиеЧто отправлять
публикация страницыновый URL в sitemap и IndexNow
обновление важного контентаURL страницы
изменение цены или наличияURL товара и категории
снятие с публикацииURL для переобхода и корректного статуса
обновление FAQURL страницы с FAQ
изменение документацииURL раздела и конкретной страницы
изменение условий доставки/оплатыURL служебной страницы

CMS не должна отправлять в IndexNow мусор: страницы поиска, фильтры с параметрами, корзину, личный кабинет, UTM-дубли, сортировки, бесконечную пагинацию. Иначе вы создаете шум и снижаете качество сигналов.

Sitemap.xml: карта, а не свалка

Sitemap должен включать только канонические URL, которые вы хотите видеть в индексе и AI-ответах. Для крупного сайта лучше разделить sitemap по типам:

  • sitemap-pages.xml для статических страниц;
  • sitemap-blog.xml для статей;
  • sitemap-products.xml для товаров;
  • sitemap-categories.xml для категорий;
  • sitemap-docs.xml для документации;
  • sitemap-images.xml, если изображения важны для товара или бренда.

Поле lastmod должно отражать реальное существенное обновление. Не обновляйте lastmod каждый день автоматически для всех страниц. Поисковые системы и краулеры быстро начинают игнорировать такой сигнал. Если изменился только блок «похожие товары», это не всегда существенное изменение. Если обновились цена, наличие, характеристики, тарифы или инструкция, lastmod оправдан.

IndexNow: как внедрять без хаоса

IndexNow лучше подключать через очередь. CMS добавляет измененный URL в очередь, воркер отправляет пакет URL, сохраняет статус, повторяет ошибки и ограничивает частоту. Это надежнее, чем синхронно дергать API при каждом сохранении страницы.

Практическая схема:

  1. Редактор или интеграция меняет страницу.
  2. CMS определяет канонический URL.
  3. URL попадает в очередь IndexNow.
  4. Очередь дедуплицирует URL за короткий период.
  5. Воркер отправляет пакет.
  6. Логи сохраняют код ответа, время и источник события.

Для ecommerce особенно важно дедуплицировать обновления. Если остатки меняются каждые пять минут, не нужно отправлять один и тот же товар сотни раз в день. Группируйте изменения и отправляйте только итоговые URL с разумным интервалом.

Robots.txt для AI-ботов

Robots.txt должен быть понятным. Не надо создавать огромный файл с сотнями случайных правил, которые никто не поддерживает. Разделите логику: публичный контент открыт, технические зоны закрыты.

Пример базового подхода:

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /search
Disallow: /*?sort=
Disallow: /*?utm_
 
Sitemap: https://example.com/sitemap.xml
 
User-agent: GPTBot
Allow: /
 
User-agent: ChatGPT-User
Allow: /
 
User-agent: ClaudeBot
Allow: /
 
User-agent: PerplexityBot
Allow: /

Этот пример не универсален. На некоторых сайтах фильтры дают важные посадочные страницы. Тогда их нужно канонизировать и открывать выборочно. На других сайтах фильтры создают миллионы дублей. Тогда их нужно закрывать.

Главное правило: не блокируйте CSS, JS и изображения, если они нужны для понимания страницы, но не позволяйте краулерам бесконечно обходить параметры и технические маршруты.

Хостинг, CDN и WAF

Многие проблемы AI-индексации находятся не в CMS, а на уровне инфраструктуры. Сайт может отлично открываться у пользователя, но блокировать бота.

Проверьте:

КомпонентРиск
WAFJS-челлендж или CAPTCHA для неизвестных user-agent
CDNагрессивный rate limit, кеш старого HTML
геофильтрыблокировка дата-центров, откуда приходят краулеры
TLSошибки цепочки сертификатов
HTTP/2/3нестабильные ответы для некоторых клиентов
gzip/brotliнекорректная компрессия
redirectsцепочки 301/302 больше 2-3 переходов
originвысокий TTFB при обходе без кеша

Не делайте исключения «для всех ботов» бездумно. Делайте наблюдаемые правила: whitelist известных поисковых user-agent после верификации, отдельные лимиты для публичных страниц, блокировка агрессивных неизвестных скраперов, логирование с причиной блокировки.

SSR, SSG и prerendering

Если сайт построен как SPA, AI-краулер может получить пустой контейнер и набор JS-файлов. Некоторые системы умеют рендерить JavaScript, но полагаться на это рискованно. Для важных страниц нужен HTML, который уже содержит основной контент.

Приоритет для SSR/SSG:

  • главная;
  • страницы услуг;
  • категории;
  • карточки товаров;
  • статьи;
  • FAQ;
  • документация;
  • страницы сравнений и альтернатив;
  • страницы тарифов;
  • страницы о компании и контактов.

Если полный SSR невозможен, используйте prerendering для ключевых URL. Но не подменяйте контент для ботов. Cloaking - плохая идея: AI и поисковые системы должны видеть то же содержание, что и пользователь.

Server logs: единственный источник правды

Проверки через онлайн-инструменты полезны, но логи важнее. Только логи показывают, кто реально приходил, какие URL запрашивал, какой статус получил, сколько байт скачал и как часто возвращался.

Смотрите user-agent:

  • Googlebot;
  • Bingbot;
  • YandexBot;
  • GPTBot;
  • ChatGPT-User;
  • ClaudeBot;
  • PerplexityBot;
  • Applebot;
  • Bytespider;
  • других ботов, релевантных вашей аудитории.

Для каждого сегмента отвечайте на вопросы:

ВопросЗачем
Какие URL посещают?понимаете глубину обхода
Какие статусы получают?находите 403, 404, 5xx
Какой TTFB?видите таймауты
Есть ли повторные запросы?оцениваете интерес к разделу
Доходят ли до важных страниц?проверяете внутренние ссылки и sitemap

Если AI-боты видят только robots.txt и главную, проблема в доступности, ссылках или интересе к домену. Если они обходят страницы, но бренд не появляется в ответах, проблема может быть в контенте, авторитетности или конкурентном окружении.

Структурированные данные

Техническая доступность нужна, но AI также должен понимать сущности. Добавьте JSON-LD для основных типов страниц:

СтраницаSchema.org
главнаяOrganization, WebSite
статьяArticle, FAQPage
товарProduct, Offer, AggregateRating
услугаService, FAQPage
категорияCollectionPage, ItemList
хлебные крошкиBreadcrumbList
страница сравненияProduct/Service, ItemList, FAQPage

Разметка должна совпадать с видимым контентом. Не добавляйте рейтинги без отзывов, цену без видимой цены, наличие без фактического наличия. AI может использовать эти данные, но противоречия снижают доверие.

Юридический и брендовый контур

Разрешение AI-ботов - не только технический вопрос. Нужно согласовать политику с юристами, безопасностью и маркетингом. Некоторые компании хотят открывать только справочный и коммерческий контент, но закрывать обучающие материалы, исследования или пользовательский контент. Это допустимо, если правила осознанные.

Зафиксируйте:

  • какие типы контента можно использовать в AI-ответах;
  • какие разделы закрыты всегда;
  • какие боты разрешены;
  • кто отвечает за изменения robots.txt;
  • как проверяются логи и инциденты;
  • как обрабатываются устаревшие или ложные AI-ответы о бренде.

Как связать технику с GEO-метриками

После настройки CMS, IndexNow, robots.txt и хостинга не останавливайтесь на зеленом чек-листе. Цель - не просто «бот получил 200 OK». Цель - чтобы AI понял и процитировал ваш бренд.

Измеряйте:

  • долю целевых промптов, где бренд упоминается;
  • среднюю позицию в списке рекомендаций;
  • цитируемые домены;
  • корректность описания продукта;
  • появление конкурентов рядом;
  • динамику после обновлений страниц.

GEO Scout на geoscout.pro связывает техническую готовность сайта с фактическими AI-ответами, потому что показывает, какие бренды и источники появляются в выдаче моделей после изменений в CMS, контенте и доступности для краулеров.

План настройки на две недели

День 1-2: соберите карту важных URL, проверьте sitemap, canonical, robots.txt и статусы.

День 3-4: настройте логи по ботам, проверьте WAF, CDN, rate limits, CAPTCHA и редиректы.

День 5-6: подключите IndexNow через очередь, настройте дедупликацию и логирование отправок.

День 7-8: проверьте SSR/SSG или prerendering для ключевых страниц, уберите зависимость важного контента от клиентского JS.

День 9-10: добавьте или исправьте Schema.org для основных типов страниц.

День 11-12: откройте нужный публичный контент для AI-ботов, закрыв технические и приватные зоны.

День 13-14: запустите мониторинг AI-промптов, зафиксируйте baseline и составьте список контентных доработок.

CMS и хостинг - это фундамент GEO. Если краулер не может быстро и стабильно получить страницу, никакая контентная стратегия не сработает. Но фундамент сам по себе не строит видимость. После технической настройки нужно создавать страницы, которые отвечают на вопросы выбора, и проверять, действительно ли AI использует ваш сайт как источник.

Частые вопросы

Что важнее: IndexNow или sitemap.xml?
Нужны оба механизма. Sitemap.xml дает поисковым системам карту важных URL, а IndexNow сообщает о конкретных изменениях. Для AI-видимости это особенно важно на сайтах, где часто обновляются цены, наличие, статьи, условия доставки или документация.
Нужно ли разрешать всех AI-ботов в robots.txt?
Если цель — попадать в AI-ответы, публичный полезный контент стоит открывать для основных AI-краулеров. Но личные кабинеты, корзина, поиск, фильтры с бесконечными параметрами, API и служебные директории нужно закрывать. Решение также зависит от юридической политики компании.
Может ли WAF или CDN мешать AI-ботам?
Да. Антибот-защита, JS-челленджи, геоблокировки, rate limits и CAPTCHA могут блокировать GPTBot, ClaudeBot, PerplexityBot и поисковых краулеров. Нужно проверять server logs и правила WAF, а не полагаться только на статус в браузере.
Как понять, что IndexNow работает?
Проверяйте успешные HTTP-ответы API, очередь отправленных URL, повторные попытки при ошибках и появление обновленных страниц в поисковом индексе. IndexNow не гарантирует индексацию, но должен стабильно принимать измененные URL.
Что делать, если сайт рендерится только через JavaScript?
Для важных страниц лучше использовать SSR, SSG или prerendering. AI-краулеры и поисковые боты могут не дождаться клиентского рендера, особенно если контент грузится после API-запросов, кликов или авторизации.
Как измерять AI-видимость после технической настройки?
После настройки CMS и хостинга проверяйте не только обход, но и ответы моделей. GEO Scout на geoscout.pro отслеживает, появляется ли бренд в AI-ответах, какие домены цитируются и как меняется позиция по целевым промптам.