🎯 Бесплатно: проверьте видимость бренда в Яндексе, ChatGPT и Gemini за 5 минутПопробовать →

10 мин чтения

Технический чек-лист: как подготовить сайт к индексации нейросетями

Полный технический чек-лист подготовки сайта к индексации AI-ботами: robots.txt, llms.txt, JSON-LD, Schema.org, sitemap.xml, скорость загрузки, таблица всех AI-ботов и user-agents.

Владислав Пучков
Владислав Пучков
Основатель GEO Scout, эксперт по GEO-оптимизации

Техническая подготовка сайта — фундамент GEO-оптимизации. Без неё экспертный контент и внешние упоминания теряют эффективность: AI-системы просто не смогут корректно прочитать и проиндексировать ваш сайт.

Полная таблица AI-ботов и user-agents

Первое, что нужно знать — какие боты пытаются получить доступ к вашему сайту. Вот полная таблица AI user-agents на март 2026 года.

БотКомпанияAI-продуктUser-AgentНазначение
GPTBotOpenAIChatGPTGPTBot/1.0Индексация для ChatGPT с веб-поиском
ChatGPT-UserOpenAIChatGPTChatGPT-UserЗапросы ChatGPT при просмотре веба
OAI-SearchBotOpenAIChatGPT SearchOAI-SearchBot/1.0Поисковый индекс OpenAI
ClaudeBotAnthropicClaudeClaudeBot/1.0Индексация для Claude
PerplexityBotPerplexityPerplexityPerplexityBotВеб-поиск Perplexity
Google-ExtendedGoogleGeminiGoogle-ExtendedДанные для обучения Gemini
GooglebotGoogleAI Overview, AI ModeGooglebotЕдиный бот для поиска и AI
YandexBotЯндексАлиса / НейропоискYandexBot/3.0Единый бот для поиска и AI
BytespiderByteDanceDoubao / TikTok AIBytespiderИндексация для AI ByteDance
CCBotCommon CrawlМножество LLMCCBot/2.0Данные для обучения моделей
AmazonbotAmazonAlexa / Amazon AIAmazonbotИндексация для AI-сервисов Amazon
AppleBot-ExtendedAppleApple IntelligenceAppleBot-ExtendedДанные для Apple AI
cohere-aiCohereCommand, Embedcohere-aiИндексация для Cohere AI
DeepSeekBotDeepSeekDeepSeekDeepSeekBotИндексация для DeepSeek
Meta-ExternalAgentMetaMeta AIMeta-ExternalAgent/1.0Индексация для Meta AI

1. robots.txt: контроль доступа для AI-ботов

Что проверить

Откройте ваш-сайт.ru/robots.txt и проверьте, нет ли блокировок для AI-ботов.

Проблемные конфигурации

# ПЛОХО: блокирует все AI-боты
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

Если вы видите такие правила — AI-системы не могут получить актуальные данные с вашего сайта. ChatGPT, Claude и Perplexity будут опираться исключительно на сторонние источники.

Рекомендуемая конфигурация

# Разрешаем AI-ботам доступ к публичным страницам
User-agent: GPTBot
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /account/

User-agent: ClaudeBot
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /account/

User-agent: PerplexityBot
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /account/

User-agent: Google-Extended
Allow: /

User-agent: CCBot
Allow: /

Что блокировать

  • /admin/, /api/, /account/ — служебные разделы
  • Страницы с персональными данными пользователей
  • Внутренние инструменты и дашборды
  • Дублированный контент (print-версии, amp-страницы без canonical)

Что НЕ блокировать

  • Главную страницу, страницы услуг и продуктов
  • Блог и экспертные статьи
  • FAQ-разделы
  • Страницу «О компании»
  • Кейсы и портфолио

2. llms.txt: инструкция для AI

Что это

llms.txt — файл в корне сайта, который предоставляет AI-системам структурированную информацию о компании и сайте. Это не стандарт W3C, а практика, набирающая распространение в AI-сообществе.

Формат файла

# Название компании
 
> Краткое описание компании в одном предложении.
 
## О компании
 
Развёрнутое описание: что делает, для кого, ключевые преимущества.
 
## Ключевые страницы
 
- [Продукт/Услуга](https://example.com/product): Описание
- [Тарифы](https://example.com/pricing): Описание
- [О компании](https://example.com/about): Описание
- [Блог](https://example.com/blog): Описание
- [FAQ](https://example.com/faq): Описание
 
## Контакты
 
- Сайт: https://example.com
- Email: info@example.com
- Телефон: +7 (xxx) xxx-xx-xx

Практический пример

# GEO Scout
 
> Платформа мониторинга видимости бренда в ответах 9 AI-провайдеров.
 
## О компании
 
GEO Scout — GEO (Generative Engine Optimization) платформа полного цикла.
Ежедневный мониторинг присутствия бренда в ChatGPT, Claude, DeepSeek,
Gemini, Google AI Mode, Google AI Overview, Grok, Perplexity и Яндекс с Алисой.
 
## Ключевые страницы
 
- [Главная](https://geoscout.pro): Обзор платформы и возможностей
- [Тарифы](https://geoscout.pro/pricing): Планы и цены
- [Блог](https://geoscout.pro/blog): Экспертные статьи по GEO
- [Рейтинги](https://geoscout.pro/ratings): Публичные рейтинги AI-видимости брендов

3. JSON-LD / Schema.org: структурированные данные

Структурированные данные помогают AI-системам точно понять содержание страницы. Это критический фактор для GEO — AI с большей вероятностью процитирует данные, которые он может однозначно интерпретировать.

Приоритетные типы разметки

ТипГде использоватьВлияние на AI
OrganizationГлавная, «О компании»AI получает базовую информацию о бренде
ProductСтраницы продуктовAI может рекомендовать конкретные продукты
ServiceСтраницы услугAI понимает, что вы предлагаете
FAQPageFAQ-разделы, статьи с FAQAI извлекает готовые ответы на вопросы
ArticleБлог, экспертные статьиAI оценивает авторство и экспертность
HowToГайды, инструкцииAI цитирует пошаговые инструкции
Review / AggregateRatingСтраницы продуктов, отзывыAI транслирует рейтинги и мнения
LocalBusinessКонтакты, карточки филиаловAI рекомендует в локальных запросах
BreadcrumbListВсе страницыAI понимает структуру сайта
SoftwareApplicationSaaS-продуктыAI корректно классифицирует продукт

Пример: Organization

{
  "@context": "https://schema.org",
  "@type": "Organization",
  "name": "Название компании",
  "url": "https://example.com",
  "logo": "https://example.com/logo.png",
  "description": "Краткое описание с ключевыми фактами",
  "foundingDate": "2023",
  "numberOfEmployees": {
    "@type": "QuantitativeValue",
    "value": 50
  },
  "sameAs": [
    "https://t.me/company",
    "https://vk.com/company"
  ]
}

Пример: FAQPage

{
  "@context": "https://schema.org",
  "@type": "FAQPage",
  "mainEntity": [
    {
      "@type": "Question",
      "name": "Вопрос клиента?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "Конкретный ответ с фактами и цифрами."
      }
    }
  ]
}

4. Sitemap.xml: карта для AI-ботов

Базовые требования

  • Файл доступен по адресу ваш-сайт.ru/sitemap.xml
  • Указан в robots.txt: Sitemap: https://ваш-сайт.ru/sitemap.xml
  • Содержит все публичные страницы, которые должен видеть AI
  • Теги <lastmod> актуальны (не статичные даты)
  • Размер не превышает 50 000 URL (для больших сайтов — sitemap index)

Приоритет страниц для AI

Не все страницы одинаково важны для AI-индексации. Приоритизируйте:

  1. Главная страница
  2. Страницы услуг/продуктов
  3. FAQ-разделы
  4. Экспертные статьи и гайды
  5. Страница «О компании»
  6. Кейсы с цифрами
  7. Страницы тарифов

Частые ошибки

  • Sitemap содержит страницы, заблокированные в robots.txt
  • Устаревшие <lastmod> (AI-системы с веб-поиском предпочитают свежий контент)
  • Отсутствие sitemap index для сайтов с 10 000+ страниц
  • Битые URL в sitemap

5. Скорость загрузки и Core Web Vitals

AI-боты, как и поисковые краулеры, отдают предпочтение быстрым сайтам. Кроме того, некоторые AI-системы (Perplexity, Google AI) показывают превью страниц — медленный сайт создаёт плохое впечатление.

Целевые показатели

МетрикаХорошоПриемлемоПлохо
LCP (Largest Contentful Paint)< 2.5 сек2.5-4.0 сек> 4.0 сек
INP (Interaction to Next Paint)< 200 мс200-500 мс> 500 мс
CLS (Cumulative Layout Shift)< 0.10.1-0.25> 0.25
TTFB (Time to First Byte)< 800 мс800-1800 мс> 1800 мс

Быстрые оптимизации

  • Включите сжатие (gzip/brotli)
  • Настройте кэширование статических ресурсов
  • Оптимизируйте изображения (WebP/AVIF, lazy loading)
  • Минимизируйте CSS и JavaScript
  • Используйте CDN

GEO-аудит сайта в GEO Scout автоматически проверяет скорость загрузки и Core Web Vitals через PageSpeed API.


6. Мобильная оптимизация

70%+ запросов к AI-ассистентам происходит с мобильных устройств (особенно голосовые запросы к Алисе). Если мобильная версия вашего сайта работает плохо — AI-рекомендация приведёт к негативному опыту.

Требования

  • Responsive дизайн (не отдельный m.site)
  • Тексты читаемые без масштабирования
  • Кнопки и ссылки с достаточным touch target (минимум 44x44 px)
  • Формы адаптированы для мобильного ввода
  • Нет горизонтальной прокрутки

7. Мета-теги и контентная разметка

Title и description

AI-системы используют мета-теги для быстрой оценки содержания страницы.

<title>Краткий, конкретный заголовок с брендом — до 60 символов</title>
<meta name="description" content="Описание с ключевыми фактами и цифрами.
  Конкретика вместо общих фраз. До 160 символов.">

Canonical URL

Обязательно для всех страниц. AI-боты могут индексировать несколько версий одной страницы (http/https, www/без www, с параметрами/без). Canonical указывает основную версию.

<link rel="canonical" href="https://example.com/page">

Open Graph и Twitter Cards

AI-системы, работающие с социальными данными (Grok), учитывают OG-теги. Заполните:

<meta property="og:title" content="Заголовок">
<meta property="og:description" content="Описание">
<meta property="og:image" content="URL изображения">
<meta property="og:type" content="website">

Заголовки H1-H3

Иерархия заголовков критична для AI — нейросети используют её для понимания структуры контента:

  • H1 — один на страницу, содержит главную тему
  • H2 — основные разделы (AI часто цитирует контент по H2)
  • H3 — подразделы с конкретикой

Автоматический аудит: что проверяет GEO Scout

GEO Scout включает автоматический GEO-аудит сайта, который проверяет все технические факторы из этого чек-листа:

  • robots.txt — доступность для AI-ботов
  • Schema.org — наличие и корректность JSON-LD разметки
  • PageSpeed — Core Web Vitals и скорость загрузки
  • Мета-теги — title, description, canonical, OG
  • Мобильная адаптация — responsive и touch-friendly
  • SSL — наличие и корректность сертификата
  • Sitemap — наличие и актуальность

Результаты аудита автоматически попадают в Командный центр, где AI приоритизирует технические задачи по степени влияния на видимость в нейросетях. Технические проблемы с высоким импактом (например, блокировка GPTBot в robots.txt) получают максимальный приоритет.


Чек-лист: техническая готовность сайта к AI

robots.txt

  • Файл robots.txt существует и доступен
  • GPTBot не заблокирован
  • ClaudeBot не заблокирован
  • PerplexityBot не заблокирован
  • Google-Extended не заблокирован
  • Служебные разделы закрыты (/admin, /api, /account)
  • Указан путь к sitemap.xml

llms.txt

  • Файл llms.txt создан и размещён в корне сайта
  • Содержит краткое описание компании
  • Указаны ключевые страницы со ссылками
  • Объём не превышает 500 слов

Structured data (JSON-LD)

  • Organization — на главной и странице «О компании»
  • Product / Service — на страницах продуктов и услуг
  • FAQPage — на FAQ-разделе и в статьях
  • Article — на экспертных статьях (с указанием автора)
  • BreadcrumbList — на всех страницах
  • Разметка валидна (проверить через Google Rich Results Test)

Sitemap.xml

  • Файл существует и доступен
  • Содержит все публичные страницы
  • Даты <lastmod> актуальны
  • Нет битых URL
  • Указан в robots.txt

Скорость и производительность

  • LCP < 2.5 секунды
  • INP < 200 мс
  • CLS < 0.1
  • Включено сжатие (gzip/brotli)
  • Изображения оптимизированы (WebP/AVIF)
  • Настроено кэширование статики

Мобильная оптимизация

  • Responsive дизайн
  • Тексты читаемые без зума
  • Touch targets >= 44x44 px
  • Нет горизонтальной прокрутки

Мета-теги и разметка

  • Title на каждой странице (уникальный, до 60 символов)
  • Description на каждой странице (с фактами, до 160 символов)
  • Canonical URL на каждой странице
  • Open Graph теги заполнены
  • Иерархия H1-H3 корректная (один H1 на страницу)
  • SSL-сертификат валидный

Частые вопросы

Какие AI-боты индексируют сайты?
Основные AI-боты: GPTBot (OpenAI/ChatGPT), ClaudeBot (Anthropic/Claude), PerplexityBot (Perplexity), Google-Extended (Gemini), Bytespider (ByteDance), CCBot (Common Crawl, используется для обучения моделей), Amazonbot (Amazon/Alexa), FacebookBot, AppleBot-Extended (Apple Intelligence), cohere-ai. У Яндекса нет отдельного AI-бота — данные для Алисы берутся из основного индекса YandexBot.
Что такое llms.txt и нужен ли он моему сайту?
llms.txt — стандарт, предложенный для предоставления LLM-системам структурированной информации о сайте. Файл размещается в корне сайта (example.com/llms.txt) и содержит краткое описание компании, ключевые страницы и контекст для AI. Это аналог robots.txt, но для помощи AI в понимании сайта, а не для управления доступом. В 2026 году поддержка ещё не повсеместна, но Perplexity и другие AI-системы начинают его учитывать.
Нужно ли разрешать AI-ботам индексировать сайт?
Да, если вы хотите, чтобы AI рекомендовал ваш бренд. По умолчанию большинство AI-ботов имеют доступ к публичным страницам. Но если ваш robots.txt блокирует GPTBot или ClaudeBot — AI-системы не смогут получить актуальную информацию с вашего сайта и будут опираться только на сторонние источники, которые вы не контролируете.
Какие типы Schema.org наиболее важны для AI?
Приоритетные типы: Organization (информация о компании), Product/Service (описание продуктов), FAQPage (вопросы-ответы — активно используются AI для формирования ответов), Article (экспертные статьи), Review/AggregateRating (отзывы и рейтинги), HowTo (пошаговые инструкции), LocalBusiness (для локального бизнеса). FAQ-разметка особенно важна — AI часто извлекает из неё готовые ответы.
Влияет ли скорость сайта на AI-видимость?
Да. AI-боты, как и поисковые краулеры, предпочитают быстро загружаемые страницы. Медленный сайт может быть проиндексирован не полностью. Кроме того, Perplexity и Google AI Mode показывают превью страниц — медленная загрузка ухудшает пользовательский опыт. Core Web Vitals в зелёной зоне — базовое требование.
Как проверить, индексирует ли AI мой сайт?
Способы проверки: 1) Посмотреть логи сервера на наличие запросов от GPTBot, ClaudeBot, PerplexityBot. 2) Спросить AI напрямую о вашей компании и оценить актуальность данных. 3) Использовать GEO-аудит в GEO Scout — он проверяет robots.txt, structured data и другие технические факторы. 4) Проверить robots.txt на блокировку AI user-agents.
Чем технический GEO отличается от технического SEO?
Технический SEO фокусируется на доступности для поисковых краулеров (Googlebot, YandexBot). Технический GEO добавляет к этому: доступность для AI-ботов (GPTBot, ClaudeBot), файл llms.txt, расширенную Schema.org разметку для машинного понимания, оптимизацию контентной структуры для цитирования. Многие требования пересекаются — хороший технический SEO закрывает 60-70% технического GEO.
Технический чек-лист: как подготовить сайт к индексации нейросетями