Технический чек-лист: как подготовить сайт к индексации нейросетями
Полный технический чек-лист подготовки сайта к индексации AI-ботами: robots.txt, llms.txt, JSON-LD, Schema.org, sitemap.xml, скорость загрузки, таблица всех AI-ботов и user-agents.
Техническая подготовка сайта — фундамент GEO-оптимизации. Без неё экспертный контент и внешние упоминания теряют эффективность: AI-системы просто не смогут корректно прочитать и проиндексировать ваш сайт.
Полная таблица AI-ботов и user-agents
Первое, что нужно знать — какие боты пытаются получить доступ к вашему сайту. Вот полная таблица AI user-agents на март 2026 года.
| Бот | Компания | AI-продукт | User-Agent | Назначение |
|---|---|---|---|---|
| GPTBot | OpenAI | ChatGPT | GPTBot/1.0 | Индексация для ChatGPT с веб-поиском |
| ChatGPT-User | OpenAI | ChatGPT | ChatGPT-User | Запросы ChatGPT при просмотре веба |
| OAI-SearchBot | OpenAI | ChatGPT Search | OAI-SearchBot/1.0 | Поисковый индекс OpenAI |
| ClaudeBot | Anthropic | Claude | ClaudeBot/1.0 | Индексация для Claude |
| PerplexityBot | Perplexity | Perplexity | PerplexityBot | Веб-поиск Perplexity |
| Google-Extended | Gemini | Google-Extended | Данные для обучения Gemini | |
| Googlebot | AI Overview, AI Mode | Googlebot | Единый бот для поиска и AI | |
| YandexBot | Яндекс | Алиса / Нейропоиск | YandexBot/3.0 | Единый бот для поиска и AI |
| Bytespider | ByteDance | Doubao / TikTok AI | Bytespider | Индексация для AI ByteDance |
| CCBot | Common Crawl | Множество LLM | CCBot/2.0 | Данные для обучения моделей |
| Amazonbot | Amazon | Alexa / Amazon AI | Amazonbot | Индексация для AI-сервисов Amazon |
| AppleBot-Extended | Apple | Apple Intelligence | AppleBot-Extended | Данные для Apple AI |
| cohere-ai | Cohere | Command, Embed | cohere-ai | Индексация для Cohere AI |
| DeepSeekBot | DeepSeek | DeepSeek | DeepSeekBot | Индексация для DeepSeek |
| Meta-ExternalAgent | Meta | Meta AI | Meta-ExternalAgent/1.0 | Индексация для Meta AI |
1. robots.txt: контроль доступа для AI-ботов
Что проверить
Откройте ваш-сайт.ru/robots.txt и проверьте, нет ли блокировок для AI-ботов.
Проблемные конфигурации
# ПЛОХО: блокирует все AI-боты
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
Если вы видите такие правила — AI-системы не могут получить актуальные данные с вашего сайта. ChatGPT, Claude и Perplexity будут опираться исключительно на сторонние источники.
Рекомендуемая конфигурация
# Разрешаем AI-ботам доступ к публичным страницам
User-agent: GPTBot
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /account/
User-agent: ClaudeBot
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /account/
User-agent: PerplexityBot
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /account/
User-agent: Google-Extended
Allow: /
User-agent: CCBot
Allow: /
Что блокировать
/admin/,/api/,/account/— служебные разделы- Страницы с персональными данными пользователей
- Внутренние инструменты и дашборды
- Дублированный контент (print-версии, amp-страницы без canonical)
Что НЕ блокировать
- Главную страницу, страницы услуг и продуктов
- Блог и экспертные статьи
- FAQ-разделы
- Страницу «О компании»
- Кейсы и портфолио
2. llms.txt: инструкция для AI
Что это
llms.txt — файл в корне сайта, который предоставляет AI-системам структурированную информацию о компании и сайте. Это не стандарт W3C, а практика, набирающая распространение в AI-сообществе.
Формат файла
# Название компании
> Краткое описание компании в одном предложении.
## О компании
Развёрнутое описание: что делает, для кого, ключевые преимущества.
## Ключевые страницы
- [Продукт/Услуга](https://example.com/product): Описание
- [Тарифы](https://example.com/pricing): Описание
- [О компании](https://example.com/about): Описание
- [Блог](https://example.com/blog): Описание
- [FAQ](https://example.com/faq): Описание
## Контакты
- Сайт: https://example.com
- Email: info@example.com
- Телефон: +7 (xxx) xxx-xx-xxПрактический пример
# GEO Scout
> Платформа мониторинга видимости бренда в ответах 9 AI-провайдеров.
## О компании
GEO Scout — GEO (Generative Engine Optimization) платформа полного цикла.
Ежедневный мониторинг присутствия бренда в ChatGPT, Claude, DeepSeek,
Gemini, Google AI Mode, Google AI Overview, Grok, Perplexity и Яндекс с Алисой.
## Ключевые страницы
- [Главная](https://geoscout.pro): Обзор платформы и возможностей
- [Тарифы](https://geoscout.pro/pricing): Планы и цены
- [Блог](https://geoscout.pro/blog): Экспертные статьи по GEO
- [Рейтинги](https://geoscout.pro/ratings): Публичные рейтинги AI-видимости брендов3. JSON-LD / Schema.org: структурированные данные
Структурированные данные помогают AI-системам точно понять содержание страницы. Это критический фактор для GEO — AI с большей вероятностью процитирует данные, которые он может однозначно интерпретировать.
Приоритетные типы разметки
| Тип | Где использовать | Влияние на AI |
|---|---|---|
| Organization | Главная, «О компании» | AI получает базовую информацию о бренде |
| Product | Страницы продуктов | AI может рекомендовать конкретные продукты |
| Service | Страницы услуг | AI понимает, что вы предлагаете |
| FAQPage | FAQ-разделы, статьи с FAQ | AI извлекает готовые ответы на вопросы |
| Article | Блог, экспертные статьи | AI оценивает авторство и экспертность |
| HowTo | Гайды, инструкции | AI цитирует пошаговые инструкции |
| Review / AggregateRating | Страницы продуктов, отзывы | AI транслирует рейтинги и мнения |
| LocalBusiness | Контакты, карточки филиалов | AI рекомендует в локальных запросах |
| BreadcrumbList | Все страницы | AI понимает структуру сайта |
| SoftwareApplication | SaaS-продукты | AI корректно классифицирует продукт |
Пример: Organization
{
"@context": "https://schema.org",
"@type": "Organization",
"name": "Название компании",
"url": "https://example.com",
"logo": "https://example.com/logo.png",
"description": "Краткое описание с ключевыми фактами",
"foundingDate": "2023",
"numberOfEmployees": {
"@type": "QuantitativeValue",
"value": 50
},
"sameAs": [
"https://t.me/company",
"https://vk.com/company"
]
}Пример: FAQPage
{
"@context": "https://schema.org",
"@type": "FAQPage",
"mainEntity": [
{
"@type": "Question",
"name": "Вопрос клиента?",
"acceptedAnswer": {
"@type": "Answer",
"text": "Конкретный ответ с фактами и цифрами."
}
}
]
}4. Sitemap.xml: карта для AI-ботов
Базовые требования
- Файл доступен по адресу
ваш-сайт.ru/sitemap.xml - Указан в robots.txt:
Sitemap: https://ваш-сайт.ru/sitemap.xml - Содержит все публичные страницы, которые должен видеть AI
- Теги
<lastmod>актуальны (не статичные даты) - Размер не превышает 50 000 URL (для больших сайтов — sitemap index)
Приоритет страниц для AI
Не все страницы одинаково важны для AI-индексации. Приоритизируйте:
- Главная страница
- Страницы услуг/продуктов
- FAQ-разделы
- Экспертные статьи и гайды
- Страница «О компании»
- Кейсы с цифрами
- Страницы тарифов
Частые ошибки
- Sitemap содержит страницы, заблокированные в robots.txt
- Устаревшие
<lastmod>(AI-системы с веб-поиском предпочитают свежий контент) - Отсутствие sitemap index для сайтов с 10 000+ страниц
- Битые URL в sitemap
5. Скорость загрузки и Core Web Vitals
AI-боты, как и поисковые краулеры, отдают предпочтение быстрым сайтам. Кроме того, некоторые AI-системы (Perplexity, Google AI) показывают превью страниц — медленный сайт создаёт плохое впечатление.
Целевые показатели
| Метрика | Хорошо | Приемлемо | Плохо |
|---|---|---|---|
| LCP (Largest Contentful Paint) | < 2.5 сек | 2.5-4.0 сек | > 4.0 сек |
| INP (Interaction to Next Paint) | < 200 мс | 200-500 мс | > 500 мс |
| CLS (Cumulative Layout Shift) | < 0.1 | 0.1-0.25 | > 0.25 |
| TTFB (Time to First Byte) | < 800 мс | 800-1800 мс | > 1800 мс |
Быстрые оптимизации
- Включите сжатие (gzip/brotli)
- Настройте кэширование статических ресурсов
- Оптимизируйте изображения (WebP/AVIF, lazy loading)
- Минимизируйте CSS и JavaScript
- Используйте CDN
GEO-аудит сайта в GEO Scout автоматически проверяет скорость загрузки и Core Web Vitals через PageSpeed API.
6. Мобильная оптимизация
70%+ запросов к AI-ассистентам происходит с мобильных устройств (особенно голосовые запросы к Алисе). Если мобильная версия вашего сайта работает плохо — AI-рекомендация приведёт к негативному опыту.
Требования
- Responsive дизайн (не отдельный m.site)
- Тексты читаемые без масштабирования
- Кнопки и ссылки с достаточным touch target (минимум 44x44 px)
- Формы адаптированы для мобильного ввода
- Нет горизонтальной прокрутки
7. Мета-теги и контентная разметка
Title и description
AI-системы используют мета-теги для быстрой оценки содержания страницы.
<title>Краткий, конкретный заголовок с брендом — до 60 символов</title>
<meta name="description" content="Описание с ключевыми фактами и цифрами.
Конкретика вместо общих фраз. До 160 символов.">Canonical URL
Обязательно для всех страниц. AI-боты могут индексировать несколько версий одной страницы (http/https, www/без www, с параметрами/без). Canonical указывает основную версию.
<link rel="canonical" href="https://example.com/page">Open Graph и Twitter Cards
AI-системы, работающие с социальными данными (Grok), учитывают OG-теги. Заполните:
<meta property="og:title" content="Заголовок">
<meta property="og:description" content="Описание">
<meta property="og:image" content="URL изображения">
<meta property="og:type" content="website">Заголовки H1-H3
Иерархия заголовков критична для AI — нейросети используют её для понимания структуры контента:
- H1 — один на страницу, содержит главную тему
- H2 — основные разделы (AI часто цитирует контент по H2)
- H3 — подразделы с конкретикой
Автоматический аудит: что проверяет GEO Scout
GEO Scout включает автоматический GEO-аудит сайта, который проверяет все технические факторы из этого чек-листа:
- robots.txt — доступность для AI-ботов
- Schema.org — наличие и корректность JSON-LD разметки
- PageSpeed — Core Web Vitals и скорость загрузки
- Мета-теги — title, description, canonical, OG
- Мобильная адаптация — responsive и touch-friendly
- SSL — наличие и корректность сертификата
- Sitemap — наличие и актуальность
Результаты аудита автоматически попадают в Командный центр, где AI приоритизирует технические задачи по степени влияния на видимость в нейросетях. Технические проблемы с высоким импактом (например, блокировка GPTBot в robots.txt) получают максимальный приоритет.
Чек-лист: техническая готовность сайта к AI
robots.txt
- Файл robots.txt существует и доступен
- GPTBot не заблокирован
- ClaudeBot не заблокирован
- PerplexityBot не заблокирован
- Google-Extended не заблокирован
- Служебные разделы закрыты (/admin, /api, /account)
- Указан путь к sitemap.xml
llms.txt
- Файл llms.txt создан и размещён в корне сайта
- Содержит краткое описание компании
- Указаны ключевые страницы со ссылками
- Объём не превышает 500 слов
Structured data (JSON-LD)
- Organization — на главной и странице «О компании»
- Product / Service — на страницах продуктов и услуг
- FAQPage — на FAQ-разделе и в статьях
- Article — на экспертных статьях (с указанием автора)
- BreadcrumbList — на всех страницах
- Разметка валидна (проверить через Google Rich Results Test)
Sitemap.xml
- Файл существует и доступен
- Содержит все публичные страницы
- Даты
<lastmod>актуальны - Нет битых URL
- Указан в robots.txt
Скорость и производительность
- LCP < 2.5 секунды
- INP < 200 мс
- CLS < 0.1
- Включено сжатие (gzip/brotli)
- Изображения оптимизированы (WebP/AVIF)
- Настроено кэширование статики
Мобильная оптимизация
- Responsive дизайн
- Тексты читаемые без зума
- Touch targets >= 44x44 px
- Нет горизонтальной прокрутки
Мета-теги и разметка
- Title на каждой странице (уникальный, до 60 символов)
- Description на каждой странице (с фактами, до 160 символов)
- Canonical URL на каждой странице
- Open Graph теги заполнены
- Иерархия H1-H3 корректная (один H1 на страницу)
- SSL-сертификат валидный
Частые вопросы
Какие AI-боты индексируют сайты?
Что такое llms.txt и нужен ли он моему сайту?
Нужно ли разрешать AI-ботам индексировать сайт?
Какие типы Schema.org наиболее важны для AI?
Влияет ли скорость сайта на AI-видимость?
Как проверить, индексирует ли AI мой сайт?
Чем технический GEO отличается от технического SEO?
Похожие статьи
Что такое GEO-оптимизация: определение, примеры, инструменты
Полное определение GEO (Generative Engine Optimization): история термина, принципы работы, примеры из практики, инструменты и отличие от SEO и AEO.
GEO-аудит сайта: что проверить чтобы AI вас цитировал
Полный чек-лист GEO-аудита сайта: структура контента, Schema.org, robots.txt для AI-ботов, E-E-A-T, Core Web Vitals. Пошаговое руководство.
GEO-оптимизация сайта: как попасть в ответы ChatGPT, Алисы и DeepSeek
Что такое GEO (Generative Engine Optimization), чем отличается от SEO, какие факторы влияют на попадание в ответы AI и пошаговая инструкция оптимизации.