Wikipedia и Wikidata для AI-видимости: как попасть в базу знаний нейросетей

TL;DR

Чтобы бренд упоминался в ChatGPT, Claude и Gemini, недостаточно хорошего сайта — нужен сущность-профиль: Wikidata QID + Wikipedia-статья + sameAs-разметка. Wikipedia и Wikidata — ключевые узлы в обучающих корпусах этих моделей, в RAG-системах и в Google Knowledge Graph, поэтому присутствие в них конвертируется в реальный рост Mention Rate. Корректный путь: независимые публикации в СМИ → создание Wikidata-записи → Wikipedia-статья от независимого редактора → sameAs-разметка на сайте. Измерить эффект можно через Mention Rate и Domain Citation Rate в geoscout.pro.

GEO Scout ежедневно отслеживает Domain Citation Rate и Mention Rate по 12 AI-провайдерам: именно эти метрики показывают, как присутствие бренда в Wikipedia и Wikidata конвертируется в реальные упоминания в ответах нейросетей — и позволяют зафиксировать разницу до и после появления entity-сигнала.

Почему LLM цитируют Wikipedia чаще других источников

Если задать ChatGPT или Claude вопрос о компании или концепции, в ответе с высокой вероятностью окажется информация, происходящая из Wikipedia. Это не случайность и не редакционный выбор — это прямое следствие того, как обучались языковые модели.

Wikipedia существует на открытой лицензии CC-BY-SA (Creative Commons Attribution-ShareAlike). Это означает, что её можно свободно использовать в коммерческих проектах при указании источника. Именно поэтому Wikipedia входила в практически каждый публичный корпус обучающих данных последнего десятилетия: Common Crawl, WebText, BooksCorpus, The Pile, C4, RefinedWeb — везде Wikipedia представлена с существенным весом.

Три дополнительных фактора делают Wikipedia особенно ценной для обучения:

Структурированность. Статьи написаны по единому шаблону: вводная часть с определением, разделы, источники, categories, infobox с фактами. LLM легко извлекают структурированные знания из такого формата.

Нейтральность. Правило NPOV (Neutral Point of View) обязывает редакторов придерживаться нейтральной точки зрения. Это снижает «шум» в обучающих данных.

Ссылочная верификация. Каждое утверждение должно опираться на авторитетный источник — что делает факты из Wikipedia более «надёжными» с точки зрения модели.

По данным аналитиков нескольких крупных AI-исследовательских лабораторий, Wikipedia составляла от 3% до 7% объёма предобучающих данных у моделей первого поколения — при том что её доля в интернете несравнимо меньше. Такая сверхпропорциональная представленность означает, что факты из Wikipedia буквально «вшиты» в веса модели, а не только извлекаются через RAG-поиск в реальном времени.

Как Wikipedia попадает в training corpus ChatGPT, Claude и Gemini

Путь Wikipedia в языковые модели — это не один механизм, а несколько параллельных каналов.

Предобучение (pretraining). На этапе предобучения модели обрабатывают сотни миллиардов токенов. Wikipedia, как правило, дедуплицируется и повторяется в корпусе несколько раз — это стандартная практика для качественных источников.

Fine-tuning и RLHF. На этапах дообучения и обучения с подкреплением Wikipedia служит эталоном фактической точности. Ответы, согласующиеся с Wikipedia, получают более высокие оценки от разметчиков.

RAG (Retrieval-Augmented Generation). Perplexity, Google AI Mode и частично ChatGPT с включённым поиском обращаются к Wikipedia в реальном времени при ответах на фактические вопросы. Wikipedia — один из привилегированных источников для RAG-систем именно потому, что её структура предсказуема.

Knowledge Graph. Gemini и Google AI Overview интегрированы с Google Knowledge Graph, который в значительной мере основан на Wikidata — структурированной версии знаний Wikipedia.

Это означает, что бренд, представленный в Wikipedia, получает эффект сразу по нескольким каналам одновременно.

Wikidata как knowledge graph: роль в RAG нейросетей

Wikidata — это машиночитаемая база знаний, которую ведут те же редакторы, что и Wikipedia. Если Wikipedia — это тексты для людей, то Wikidata — это структурированные данные для машин.

Каждая сущность в Wikidata получает уникальный идентификатор — QID (например, Q90 для Парижа или Q95 для Facebook). К QID привязывается набор утверждений (claims) в формате «свойство — значение — источник».

Для AI-систем Wikidata важна по трём причинам:

Entity disambiguation. Когда AI встречает слово «Mercury», Wikidata помогает понять контекст: это планета (Q308), компания (Q1780805) или что-то ещё. Без knowledge graph модель угадывает.
Knowledge Graph Google. Google извлекает данные из Wikidata для своего Knowledge Graph, который читают Gemini и Google AI Overview. Wikidata — буквально исходный код knowledge panels в Google.
RAG-индексация. Wikidata предоставляет SPARQL-эндпоинт и JSON-дампы. RAG-системы используют Wikidata как структурированный индекс для точных фактических запросов.

Компонент Wikidata	Что означает	Пример для бренда
QID	Уникальный ID сущности	Q12345 — ваша компания
P31 (instance of)	Тип сущности	«компания», «организация», «SaaS»
P856 (official website)	Официальный сайт	https://geoscout.pro
P18 (image)	Логотип или фото	URL логотипа на Wikimedia Commons
P571 (inception)	Дата основания	2024-01-15
P127 (owned by) / P169 (CEO)	Структура управления	Имя основателя
P2002 (Twitter/X handle)	Аккаунт X	@geoscout
P4264 (LinkedIn company ID)	LinkedIn	geoscout
P2088 (Crunchbase)	Crunchbase slug	geoscout
sameAs (via P856+externes)	Связь со Schema.org	Все внешние идентификаторы

Критерии значимости: WP:N, WP:COI, WP:V

Прежде чем думать о Wikipedia-статье о бренде, нужно понять три ключевых правила, которые определяют, возможна ли такая статья вообще.

Правило	Расшифровка	Что означает на практике
WP:N (Notability)	Критерий значимости	Бренд должен иметь «значительное освещение» в авторитетных источниках, независимых от самого бренда. Пресс-релизы, интервью основателя и собственный блог — не считаются
WP:COI	Conflict of Interest	Создавать или редактировать статью о своей компании нельзя без явного раскрытия конфликта интересов. Неявный COI — прямой путь к блокировке аккаунта и удалению статьи
WP:V	Verifiability	Каждое утверждение должно подтверждаться авторитетным источником. «Лидер рынка», «инновационная компания» — не верифицируемые утверждения
WP:NPOV	Neutral Point of View	Статья должна быть написана без рекламного тона. Превосходные степени, маркетинговый язык, позиционирование — всё это удаляется при патрулировании
WP:OR	No Original Research	Нельзя публиковать факты, которые есть только в ваших собственных материалах. Нужна внешняя верификация

Для компаний конкретным критерием WP:N является WP:NCORP — Notability for Corporations. Компания считается значимой, если она получила «значительное освещение» (significant coverage) в нескольких независимых авторитетных источниках. Это означает:

Не новостная заметка в 3 строки, а развёрнутый материал о компании
Источники независимые — не партнёрские медиа, не спонсорский контент
Источники авторитетные — крупные деловые издания, отраслевые медиа с редакционной политикой

На практике планка для русскоязычной Wikipedia несколько ниже, чем для английской, но логика та же.

Корректный путь: от нуля до Wikipedia-статьи

Самая распространённая ошибка брендов — попытка написать статью о себе напрямую. Это нарушение WP:COI, и даже если статья переживёт несколько дней, её удалят при первом патрулировании.

Правильный путь выглядит иначе:

Шаг 1. Накопить независимые публикации в авторитетных СМИ. Цель — создать пул источников, который удовлетворяет WP:N. Это публикации в деловых изданиях (Forbes, РБК, Коммерсантъ, VC.ru с журналистскими материалами, Habr), отраслевых медиа, аналитических отчётах. Важно: не рекламные публикации, не нативка, не гостевые колонки от сотрудников. Редакционные материалы, где журналист сам решил написать о компании.

Шаг 2. Создать Wikidata-запись. Wikidata имеет значительно более низкий порог значимости, чем Wikipedia. Большинство реально существующих компаний могут создать запись самостоятельно. Это не нарушает правила о конфликте интересов, если запись фактическая и нейтральная.

Шаг 3. Ждать или нанять раскрытого редактора. После накопления достаточной источниковой базы есть два варианта: дождаться, пока независимый редактор создаст статью сам (это случается, если компания заметна), или обратиться к профессиональному Wikipedia-редактору через официальный канал раскрытия COI — Paid Editing Disclosure. Редактор действует независимо, а его аффилированность с клиентом прозрачна.

Шаг 4. Поддерживать статью в актуальном состоянии. После создания статью можно обновлять через Talk Page (страницу обсуждения): оставлять запросы на редакторов с указанием устаревших фактов и новых источников.

Шаг 5. Связать Wikipedia ↔ Wikidata ↔ Organization schema. После появления статьи нужно замкнуть граф идентичности — добавить sameAs на сайте.

Как связать Wikipedia, Wikidata и Organization schema

Наличие Wikipedia-статьи и Wikidata-записи — только половина работы. Вторая половина — сообщить AI-системам, что ваш сайт, Wikipedia и Wikidata описывают одну и ту же сущность. Это делается через Schema.org разметку на сайте.

Минимальный JSON-LD для Organization:

{
  "@context": "https://schema.org",
  "@type": "Organization",
  "name": "Ваша Компания",
  "url": "https://вашсайт.ru",
  "sameAs": [
    "https://www.wikidata.org/wiki/Q12345",
    "https://ru.wikipedia.org/wiki/Ваша_статья",
    "https://www.linkedin.com/company/ваша-компания",
    "https://www.crunchbase.com/organization/ваша-компания",
    "https://github.com/ваша-компания"
  ]
}

Свойство sameAs — это прямой сигнал для AI-систем: «все эти URL описывают одну сущность». Google использует это для Knowledge Graph, Gemini — для сущность resolution, а RAG-системы — для дедупликации сигналов из разных источников.

Связка из трёх элементов — Wikidata QID, Wikipedia-статья, sameAs на сайте — формирует то, что GEO-специалисты называют сущность-профилем. AI-модели используют сущность-профиль для разрешения неоднозначностей и повышения уверенности при упоминании бренда.

Типичные ошибки при работе с Wikipedia

Большинство ошибок повторяются. Вот самые частые:

Рекламный тон. Статья, написанная как пресс-релиз — «ведущая компания на рынке», «революционный продукт», «лидер отрасли» — будет отмечена шаблоном {{рекламный стиль}} при первом патрулировании и быстро удалена.

Один источник. Статья, вся фактура которой опирается на один материал (даже авторитетный), не удовлетворяет WP:N. Нужно несколько независимых источников.

Оригинальное исследование (WP:OR). Нельзя добавлять данные, которые есть только в вашем блоге или внутренних отчётах. Только то, что можно верифицировать внешним источником.

Создание без раскрытия COI. Даже если статья написана нейтрально, аккаунт без раскрытия конфликта интересов — риск блокировки. Лучше использовать Talk Page с явным указанием аффилированности.

Игнорирование Wikidata. Многие бренды создают Wikipedia-статью, но не заполняют Wikidata. Это значит, что knowledge graph получает неполные данные о сущности — особенно критично для моделей, интегрированных с Google Knowledge Graph.

Отсутствие sameAs на сайте. Замкнуть граф идентичности — последний шаг, который часто пропускают. Без sameAs AI-системы не «склеивают» сайт, Wikipedia и Wikidata в единую сущность.

Что делать, если статью удалили

Удаление Wikipedia-статьи — не конец пути. Существует официальный процесс обжалования.

Первый шаг: прочитать полный лог удаления (Special:Log/delete). Там указана конкретная причина. Самые частые: WP:N (недостаточно источников), WP:PROMO (рекламный тон), WP:COI (конфликт интересов без раскрытия).

Для WP:N: накопить больше авторитетных публикаций, затем открыть Deletion Review (Wikipedia:Deletion review). В запросе нужно указать новые источники и объяснить, почему они удовлетворяют критериям значимости.

Для WP:PROMO: переписать статью с нейтральным тоном через Talk Page, после чего попросить редактора пересмотреть решение.

Для WP:COI: не создавать статью снова самостоятельно. Ждать независимого редактора или работать через официальный канал раскрытия (OTRS/Paid Editing Disclosure).

Во всех случаях не стоит создавать статью заново под новым аккаунтом — это блокировка за sockpuppeting.

Как измерить эффект: Mention Rate и Domain Citation Rate

Entity-сигнал от Wikipedia и Wikidata — не умозрительный фактор. Его можно измерить конкретными метриками.

Mention Rate показывает, в какой доле AI-ответов упоминается бренд по заданному набору промптов. После появления Wikipedia-статьи или создания Wikidata-записи эта метрика, как правило, растёт — особенно у провайдеров, которые активно используют knowledge graph (Gemini, Google AI Mode, Google AI Overview).

Domain Citation Rate показывает, как часто AI напрямую цитирует домен бренда. Wikipedia сама является цитируемым источником, но она также повышает авторитетность домена в глазах AI — и это отражается в росте прямых цитирований сайта.

GEO Scout ежедневно измеряет обе метрики по 12 AI-провайдерам. Это позволяет видеть, у каких провайдеров entity-сигнал уже сработал, а у каких — ещё нет. Например, после появления Wikipedia-статьи эффект в Perplexity и Google AI Mode заметен значительно быстрее, чем в ChatGPT — из-за разницы в частоте обновления знаний.

Командный центр GEO Scout автоматически анализирует пробелы в сущность-присутствии и показывает, какое внешнее присутствие нарастить в первую очередь: где нужны публикации в СМИ, где — Wikidata-запись, где — sameAs-разметка. Это превращает абстрактную задачу «усилить сущность-сигнал» в конкретный приоритизированный список действий.

По наблюдениям, бренды с Wikipedia-статьёй и правильно заполненной Wikidata-записью имеют в среднем более высокий Mention Rate в провайдерах, интегрированных с Knowledge Graph, по сравнению с брендами без сущность-профиля — при сопоставимом качестве контента на сайте.

Цифры: какая доля LLM-ответов цитирует Wikipedia

Точные цифры зависят от типа запроса и конкретного провайдера. По данным независимых исследований источниковой базы LLM:

В запросах о компаниях, персонах и концепциях Perplexity ссылается на Wikipedia в 20-35% случаев.
Google AI Overview включает данные из Knowledge Graph (Wikidata) почти в каждом ответе о сущностях.
ChatGPT с включённым поиском Bing цитирует Wikipedia значительно реже напрямую, но Knowledge Panel Google в Bing-результатах также питается из Wikidata.
Claude и DeepSeek реже раскрывают источники явно, но аналитика обучающих данных показывает высокую плотность Wikipedia в предобучающих корпусах.

Для фактических вопросов («кто основал», «когда основана», «что делает компания X») доля ответов, опирающихся на Wikipedia или Wikidata, существенно выше, чем для вопросов сравнительного или рекомендательного характера.

Чек-лист «Путь к сущность»

Этап	Действие	Статус
Источниковая база	Минимум 3-5 авторитетных редакционных материала о компании в независимых СМИ
Источниковая база	Материалы освещают компанию развёрнуто, а не упоминают вскользь
Wikidata	Создать запись с QID, заполнить P31 (instance of), P856 (website), P571 (inception)
Wikidata	Добавить внешние идентификаторы: LinkedIn, Crunchbase, GitHub, X
Wikidata	Указать sources для каждого утверждения
Wikipedia	Оценить соответствие WP:N по накопленной источниковой базе
Wikipedia	Создать статью через независимого редактора с раскрытием COI или дождаться независимого создания
Wikipedia	Проверить нейтральность тона (WP:NPOV), верифицируемость (WP:V), отсутствие OR
Сайт	Добавить JSON-LD Organization с sameAs на Wikidata QID и Wikipedia-статью
Сайт	Включить в sameAs: LinkedIn, Crunchbase, GitHub и другие авторитетные профили
Мониторинг	Настроить отслеживание Mention Rate и Domain Citation Rate в GEO Scout
Мониторинг	Зафиксировать baseline до появления сущность-профиля для корректного сравнения

Entity-сигнал — это долгосрочная инвестиция

Wikipedia и Wikidata не дают мгновенного результата. Накопление источниковой базы занимает месяцы, создание Wikipedia-статьи — ещё столько же. Но сущность-сигнал, в отличие от SEO-ссылок или рекламных публикаций, работает по нескольким каналам одновременно: обучающие данные, RAG-поиск, knowledge graph, сущность resolution.

Особенность сущность-оптимизации в том, что она самоусиливается: бренд с Wikidata QID получает больше структурированных упоминаний в других базах данных, что создаёт дополнительные сигналы для AI-систем, что в свою очередь повышает вероятность появления независимых публикаций — и так далее.

Подробнее о том, как выстраивать внешние упоминания системно, — в статье внешние упоминания для AI-видимости. О том, как правильно описать бренд для нейросетей на своём сайте, — в материале нарратив бренда для нейросетей. О прямом цитировании сайта AI-системами — в статье Domain Citation Rate: кого AI цитирует напрямую.

Чтобы понять, насколько entity-сигнал уже работает для вашего бренда, и получить конкретные рекомендации по следующим шагам — начните с бесплатного тарифа GEO Scout: 5 промптов в 6 нейросетях без привязки карты, Mention Rate и Domain Citation Rate в реальном времени.

Частые вопросы

Почему ChatGPT и Claude так часто цитируют Wikipedia?

Wikipedia написана на открытой лицензии CC-BY-SA и входила в практически каждый публичный корпус обучающих данных: Common Crawl, WebText, BooksCorpus, C4 — везде Wikipedia присутствует с высоким весом из-за структурированности, нейтральности и ссылочной плотности. Именно поэтому факты из Wikipedia попадают в «веса» модели напрямую, а не через RAG-поиск.

Можно ли самостоятельно написать статью о своём бренде в Wikipedia?

Технически — да, но это нарушает правило WP:COI (Conflict of Interest). Такие статьи удаляются с высокой вероятностью, а аккаунт автора может быть заблокирован. Правильный путь: накопить достаточно независимых публикаций в авторитетных СМИ, после чего опытный редактор создаст статью сам или вы сможете нанять раскрытого стороннего редактора.

Что такое Wikidata QID и зачем он нужен бренду?

QID — уникальный идентификатор сущности в Wikidata (например, Q12345). Он связывает все языковые версии Wikipedia, внешние базы данных (Crunchbase, LinkedIn, GitHub) и Schema.org sameAs-разметку на вашем сайте в единый граф знаний. Модели вроде Gemini, которые используют Knowledge Graph Google, напрямую читают структуру Wikidata.

Как быстро появится эффект на Mention Rate после создания Wikipedia-статьи?

Для моделей, обновляющих индекс в реальном времени (Perplexity, Google AI Mode), эффект заметен в течение нескольких недель. Для ChatGPT и Claude, которые обновляют знания с задержкой, изменение может отразиться через несколько месяцев после следующего цикла переобучения или обновления RAG-корпуса. GEO Scout показывает Mention Rate по каждому из 12 провайдеров, что позволяет видеть эффект дифференцированно.

Что делать, если Wikipedia-статью о бренде удалили?

Первый шаг — прочитать полный лог удаления (Deletion log) и установить причину. Если статья удалена за нарушение WP:N (недостаточно источников), нужно накопить больше качественных публикаций в авторитетных СМИ, затем запустить Deletion Review (DRV). Если удалена за WP:COI — дождаться создания статьи независимым редактором, не создавать её снова самостоятельно.

Обязательно ли нужна статья в Wikipedia, чтобы AI упоминал бренд?

Нет, Wikipedia — один из сильных сущность-сигналов, но не единственный. Бренд может иметь высокий Mention Rate за счёт качественного контента, внешних упоминаний в СМИ и правильной Schema.org разметки. Однако Wikipedia+Wikidata создают структурированный сущность-профиль, который напрямую читается knowledge graph нейросетей и RAG-системами.

Что такое sameAs в Schema.org и как это связано с Wikidata?

sameAs — свойство Schema.org, которое указывает, что ваш сайт описывает ту же сущность, что и URL в другом источнике. Добавив в Organization-разметку ссылки на Wikidata QID, Wikipedia-статью, LinkedIn и Crunchbase, вы формируете граф идентичности бренда, который AI-модели используют для разрешения неоднозначностей: «ACME Corp на сайте» = «ACME Corp в Wikipedia» = «ACME Corp в Wikidata».