AI crawler logs в Vercel: как отладить GEO-доступ

AI crawler readiness нельзя считать завершённой, пока логи не подтвердят, что боты получают полезные страницы. Sitemap может быть валидным, robots.txt может выглядеть правильно, но если GPTBot или ClaudeBot получает 403, 404, redirect loop или thin HTML, GEO-основа слабая.

Используйте Vercel logs как технический truth layer, а GEO Scout - как слой измерения видимости.

User agents

Начните с:

GPTBot
ClaudeBot
PerplexityBot
Googlebot
Bingbot
Google-Extended
Applebot

Часть AI-ответов опирается на search indexes, поэтому классические search bots тоже важны.

Что смотреть

Для каждого crawler request фиксируйте:

timestamp;
user agent;
path;
status code;
response size;
redirect target;
cache status;
country или edge region;
middleware decision;
final canonical URL.

Главный вопрос не "приходил ли бот", а "получил ли бот те же публичные знания, что и покупатель".

Middleware logging

Для короткого debugging window можно логировать выбранных ботов:

import { NextResponse, type NextRequest } from 'next/server'
 
const BOT_PATTERN = /(GPTBot|ClaudeBot|PerplexityBot|Googlebot|Bingbot)/i
 
export function middleware(request: NextRequest) {
  const ua = request.headers.get('user-agent') ?? ''
 
  if (BOT_PATTERN.test(ua)) {
    console.log(
      JSON.stringify({
        type: 'ai-crawler',
        ua,
        path: request.nextUrl.pathname,
        url: request.nextUrl.href,
        ts: new Date().toISOString(),
      })
    )
  }
 
  return NextResponse.next()
}

Не логируйте sensitive data, cookies, authorization headers или private user content.

Status code triage

Status	Значение	GEO action
200	Page accessible	Проверить HTML и schema
301/308	Redirect	Один hop до canonical
401/403	Blocked	Проверить auth, WAF, bot rules, middleware
404	Missing	Исправить sitemap, slug или redirects
429	Rate limited	Настроить bot protection
5xx	Server issue	Исправить rendering, timeouts или edge errors

Проверка robots.txt и llms.txt

curl -A "GPTBot/1.0" -i https://example.com/robots.txt
curl -A "GPTBot/1.0" -i https://example.com/llms.txt
curl -A "GPTBot/1.0" -i https://example.com/sitemap.xml

Затем money page:

curl -A "GPTBot/1.0" -s https://example.com/features/reporting | head -80

Если ответ состоит в основном из scripts и empty root, сначала чините rendering.

Vercel pitfalls

Middleware блокирует bots как unknown user agents.
Preview deployments случайно попадают в sitemap.
x-robots-tag: noindex наследуется от route group.
Static pages кешируются, но dynamic pages timeout для crawlers.
Rewrites создают разные URL для humans и bots.
Bot protection блокирует AI crawlers, которых вы хотели разрешить.
Canonical URL ведут на old domains или staging.

Связь логов с GEO metrics

Логи отвечают:

могут ли crawlers дойти до страницы;
какие pages они запрашивают;
есть ли blocks;
получают ли useful HTML.

GEO Scout отвечает:

появляется ли бренд в AI-ответах;
какие конкуренты появляются вместо него;
какие sources цитируются;
изменились ли mentions после технического fix.

Используйте geoscout.pro после исправления логов, чтобы отслеживать prompt-level movement. Technical access - база, но AI visibility - business metric.

Debugging checklist

/robots.txt, /llms.txt и /sitemap.xml возвращают 200.
Логи фильтруются по AI и search user agents.
Проверены status codes и redirect chains.
Raw HTML сравнен для bot и normal user agent.
JSON-LD есть в initial response.
Accidental blocks удалены из middleware или WAF.
AI mentions и citations отслеживаются после recrawl.

Если crawler не может чисто получить страницу, он не сможет надёжно использовать её как evidence.

Частые вопросы

Можно ли увидеть AI crawler traffic в Vercel?

Vercel может показывать request logs и observability data в зависимости от плана и настройки. Также можно добавить middleware logging или отправлять логи во внешнюю observability-систему.

Какие user agents проверять?

Начните с GPTBot, ClaudeBot, PerplexityBot, Googlebot, Bingbot, Google-Extended и других AI или search crawlers, важных для вашего рынка.

Какая самая частая GEO-проблема в Vercel?

Публичные страницы отдают thin client-rendered HTML, лишние redirects, blocked robots rules или 401/403 для краулеров.

Как GEO Scout дополняет логи?

Логи показывают, могут ли краулеры получить страницы. GEO Scout на geoscout.pro показывает, упоминают ли AI-системы бренд и цитируют ли эти страницы.