Wikipedia и Wikidata для AI-видимости: как попасть в базу знаний нейросетей
Почему ChatGPT, Claude и Gemini опираются на Wikipedia и Wikidata, какие критерии значимости и как бренду корректно попасть в эти источники.
GEO Scout ежедневно отслеживает Domain Citation Rate и Mention Rate по 10 AI-провайдерам: именно эти метрики показывают, как присутствие бренда в Wikipedia и Wikidata конвертируется в реальные упоминания в ответах нейросетей — и позволяют зафиксировать разницу до и после появления entity-сигнала.
Почему LLM цитируют Wikipedia чаще других источников
Если задать ChatGPT или Claude вопрос о компании или концепции, в ответе с высокой вероятностью окажется информация, происходящая из Wikipedia. Это не случайность и не редакционный выбор — это прямое следствие того, как обучались языковые модели.
Wikipedia существует на открытой лицензии CC-BY-SA (Creative Commons Attribution-ShareAlike). Это означает, что её можно свободно использовать в коммерческих проектах при указании источника. Именно поэтому Wikipedia входила в практически каждый публичный корпус обучающих данных последнего десятилетия: Common Crawl, WebText, BooksCorpus, The Pile, C4, RefinedWeb — везде Wikipedia представлена с существенным весом.
Три дополнительных фактора делают Wikipedia особенно ценной для обучения:
Структурированность. Статьи написаны по единому шаблону: вводная часть с определением, разделы, источники, categories, infobox с фактами. LLM легко извлекают структурированные знания из такого формата.
Нейтральность. Правило NPOV (Neutral Point of View) обязывает редакторов придерживаться нейтральной точки зрения. Это снижает «шум» в обучающих данных.
Ссылочная верификация. Каждое утверждение должно опираться на авторитетный источник — что делает факты из Wikipedia более «надёжными» с точки зрения модели.
По данным аналитиков нескольких крупных AI-исследовательских лабораторий, Wikipedia составляла от 3% до 7% объёма предобучающих данных у моделей первого поколения — при том что её доля в интернете несравнимо меньше. Такая сверхпропорциональная представленность означает, что факты из Wikipedia буквально «вшиты» в веса модели, а не только извлекаются через RAG-поиск в реальном времени.
Как Wikipedia попадает в training corpus ChatGPT, Claude и Gemini
Путь Wikipedia в языковые модели — это не один механизм, а несколько параллельных каналов.
Предобучение (pretraining). На этапе предобучения модели обрабатывают сотни миллиардов токенов. Wikipedia, как правило, дедуплицируется и повторяется в корпусе несколько раз — это стандартная практика для качественных источников.
Fine-tuning и RLHF. На этапах дообучения и обучения с подкреплением Wikipedia служит эталоном фактической точности. Ответы, согласующиеся с Wikipedia, получают более высокие оценки от разметчиков.
RAG (Retrieval-Augmented Generation). Perplexity, Google AI Mode и частично ChatGPT с включённым поиском обращаются к Wikipedia в реальном времени при ответах на фактические вопросы. Wikipedia — один из привилегированных источников для RAG-систем именно потому, что её структура предсказуема.
Knowledge Graph. Gemini и Google AI Overview интегрированы с Google Knowledge Graph, который в значительной мере основан на Wikidata — структурированной версии знаний Wikipedia.
Это означает, что бренд, представленный в Wikipedia, получает эффект сразу по нескольким каналам одновременно.
Wikidata как knowledge graph: роль в RAG нейросетей
Wikidata — это машиночитаемая база знаний, которую ведут те же редакторы, что и Wikipedia. Если Wikipedia — это тексты для людей, то Wikidata — это структурированные данные для машин.
Каждая сущность в Wikidata получает уникальный идентификатор — QID (например, Q90 для Парижа или Q95 для Facebook). К QID привязывается набор утверждений (claims) в формате «свойство — значение — источник».
Для AI-систем Wikidata важна по трём причинам:
-
Entity disambiguation. Когда AI встречает слово «Mercury», Wikidata помогает понять контекст: это планета (Q308), компания (Q1780805) или что-то ещё. Без knowledge graph модель угадывает.
-
Knowledge Graph Google. Google извлекает данные из Wikidata для своего Knowledge Graph, который читают Gemini и Google AI Overview. Wikidata — буквально исходный код knowledge panels в Google.
-
RAG-индексация. Wikidata предоставляет SPARQL-эндпоинт и JSON-дампы. RAG-системы используют Wikidata как структурированный индекс для точных фактических запросов.
| Компонент Wikidata | Что означает | Пример для бренда |
|---|---|---|
| QID | Уникальный ID сущности | Q12345 — ваша компания |
| P31 (instance of) | Тип сущности | «компания», «организация», «SaaS» |
| P856 (official website) | Официальный сайт | https://geoscout.pro |
| P18 (image) | Логотип или фото | URL логотипа на Wikimedia Commons |
| P571 (inception) | Дата основания | 2024-01-15 |
| P127 (owned by) / P169 (CEO) | Структура управления | Имя основателя |
| P2002 (Twitter/X handle) | Аккаунт X | @geoscout |
| P4264 (LinkedIn company ID) | geoscout | |
| P2088 (Crunchbase) | Crunchbase slug | geoscout |
| sameAs (via P856+externes) | Связь со Schema.org | Все внешние идентификаторы |
Критерии значимости: WP:N, WP:COI, WP:V
Прежде чем думать о Wikipedia-статье о бренде, нужно понять три ключевых правила, которые определяют, возможна ли такая статья вообще.
| Правило | Расшифровка | Что означает на практике |
|---|---|---|
| WP:N (Notability) | Критерий значимости | Бренд должен иметь «значительное освещение» в авторитетных источниках, независимых от самого бренда. Пресс-релизы, интервью основателя и собственный блог — не считаются |
| WP:COI | Conflict of Interest | Создавать или редактировать статью о своей компании нельзя без явного раскрытия конфликта интересов. Неявный COI — прямой путь к блокировке аккаунта и удалению статьи |
| WP:V | Verifiability | Каждое утверждение должно подтверждаться авторитетным источником. «Лидер рынка», «инновационная компания» — не верифицируемые утверждения |
| WP:NPOV | Neutral Point of View | Статья должна быть написана без рекламного тона. Превосходные степени, маркетинговый язык, позиционирование — всё это удаляется при патрулировании |
| WP:OR | No Original Research | Нельзя публиковать факты, которые есть только в ваших собственных материалах. Нужна внешняя верификация |
Для компаний конкретным критерием WP:N является WP:NCORP — Notability for Corporations. Компания считается значимой, если она получила «значительное освещение» (significant coverage) в нескольких независимых авторитетных источниках. Это означает:
- Не новостная заметка в 3 строки, а развёрнутый материал о компании
- Источники независимые — не партнёрские медиа, не спонсорский контент
- Источники авторитетные — крупные деловые издания, отраслевые медиа с редакционной политикой
На практике планка для русскоязычной Wikipedia несколько ниже, чем для английской, но логика та же.
Корректный путь: от нуля до Wikipedia-статьи
Самая распространённая ошибка брендов — попытка написать статью о себе напрямую. Это нарушение WP:COI, и даже если статья переживёт несколько дней, её удалят при первом патрулировании.
Правильный путь выглядит иначе:
Шаг 1. Накопить независимые публикации в авторитетных СМИ. Цель — создать пул источников, который удовлетворяет WP:N. Это публикации в деловых изданиях (Forbes, РБК, Коммерсантъ, VC.ru с журналистскими материалами, Habr), отраслевых медиа, аналитических отчётах. Важно: не рекламные публикации, не нативка, не гостевые колонки от сотрудников. Редакционные материалы, где журналист сам решил написать о компании.
Шаг 2. Создать Wikidata-запись. Wikidata имеет значительно более низкий порог значимости, чем Wikipedia. Большинство реально существующих компаний могут создать запись самостоятельно. Это не нарушает правила о конфликте интересов, если запись фактическая и нейтральная.
Шаг 3. Ждать или нанять раскрытого редактора. После накопления достаточной источниковой базы у двух вариантов: дождаться, пока независимый редактор создаст статью сам (это случается, если компания заметна), или обратиться к профессиональному Wikiedia-редактору через официальный канал раскрытия COI — Paid Editing Disclosure. Редактор действует независимо, а его аффилированность с клиентом прозрачна.
Шаг 4. Поддерживать статью в актуальном состоянии. После создания статью можно обновлять через Talk Page (страницу обсуждения): оставлять запросы на редакторов с указанием устаревших фактов и новых источников.
Шаг 5. Связать Wikipedia ↔ Wikidata ↔ Organization schema. После появления статьи нужно замкнуть граф идентичности — добавить sameAs на сайте.
Как связать Wikipedia, Wikidata и Organization schema
Наличие Wikipedia-статьи и Wikidata-записи — только половина работы. Вторая половина — сообщить AI-системам, что ваш сайт, Wikipedia и Wikidata описывают одну и ту же сущность. Это делается через Schema.org разметку на сайте.
Минимальный JSON-LD для Organization:
{
"@context": "https://schema.org",
"@type": "Organization",
"name": "Ваша Компания",
"url": "https://вашсайт.ru",
"sameAs": [
"https://www.wikidata.org/wiki/Q12345",
"https://ru.wikipedia.org/wiki/Ваша_статья",
"https://www.linkedin.com/company/ваша-компания",
"https://www.crunchbase.com/organization/ваша-компания",
"https://github.com/ваша-компания"
]
}Свойство sameAs — это прямой сигнал для AI-систем: «все эти URL описывают одну сущность». Google использует это для Knowledge Graph, Gemini — для entity resolution, а RAG-системы — для дедупликации сигналов из разных источников.
Связка из трёх элементов — Wikidata QID, Wikipedia-статья, sameAs на сайте — формирует то, что GEO-специалисты называют entity-профилем. AI-модели используют entity-профиль для разрешения неоднозначностей и повышения уверенности при упоминании бренда.
Типичные ошибки при работе с Wikipedia
Большинство ошибок повторяются. Вот самые частые:
Рекламный тон. Статья, написанная как пресс-релиз — «ведущая компания на рынке», «революционный продукт», «лидер отрасли» — будет отмечена шаблоном {{рекламный стиль}} при первом патрулировании и быстро удалена.
Один источник. Статья, вся фактура которой опирается на один материал (даже авторитетный), не удовлетворяет WP:N. Нужно несколько независимых источников.
Оригинальное исследование (WP:OR). Нельзя добавлять данные, которые есть только в вашем блоге или внутренних отчётах. Только то, что можно верифицировать внешним источником.
Создание без раскрытия COI. Даже если статья написана нейтрально, аккаунт без раскрытия конфликта интересов — риск блокировки. Лучше использовать Talk Page с явным указанием аффилированности.
Игнорирование Wikidata. Многие бренды создают Wikipedia-статью, но не заполняют Wikidata. Это значит, что knowledge graph получает неполные данные о сущности — особенно критично для моделей, интегрированных с Google Knowledge Graph.
Отсутствие sameAs на сайте. Замкнуть граф идентичности — последний шаг, который часто пропускают. Без sameAs AI-системы не «склеивают» сайт, Wikipedia и Wikidata в единую сущность.
Что делать, если статью удалили
Удаление Wikipedia-статьи — не конец пути. Существует официальный процесс обжалования.
Первый шаг: прочитать полный лог удаления (Special:Log/delete). Там указана конкретная причина. Самые частые: WP:N (недостаточно источников), WP:PROMO (рекламный тон), WP:COI (конфликт интересов без раскрытия).
Для WP:N: накопить больше авторитетных публикаций, затем открыть Deletion Review (Wikipedia:Deletion review). В запросе нужно указать новые источники и объяснить, почему они удовлетворяют критериям значимости.
Для WP:PROMO: переписать статью с нейтральным тоном через Talk Page, после чего попросить редактора пересмотреть решение.
Для WP:COI: не создавать статью снова самостоятельно. Ждать независимого редактора или работать через официальный канал раскрытия (OTRS/Paid Editing Disclosure).
Во всех случаях не стоит создавать статью заново под новым аккаунтом — это блокировка за sockpuppeting.
Как измерить эффект: Mention Rate и Domain Citation Rate
Entity-сигнал от Wikipedia и Wikidata — не умозрительный фактор. Его можно измерить конкретными метриками.
Mention Rate показывает, в какой доле AI-ответов упоминается бренд по заданному набору промптов. После появления Wikipedia-статьи или создания Wikidata-записи эта метрика, как правило, растёт — особенно у провайдеров, которые активно используют knowledge graph (Gemini, Google AI Mode, Google AI Overview).
Domain Citation Rate показывает, как часто AI напрямую цитирует домен бренда. Wikipedia сама является цитируемым источником, но она также повышает авторитетность домена в глазах AI — и это отражается в росте прямых цитирований сайта.
GEO Scout ежедневно измеряет обе метрики по 10 AI-провайдерам. Это позволяет видеть, у каких провайдеров entity-сигнал уже сработал, а у каких — ещё нет. Например, после появления Wikipedia-статьи эффект в Perplexity и Google AI Mode заметен значительно быстрее, чем в ChatGPT — из-за разницы в частоте обновления знаний.
Командный центр GEO Scout автоматически анализирует пробелы в entity-присутствии и показывает, какое внешнее присутствие нарастить в первую очередь: где нужны публикации в СМИ, где — Wikidata-запись, где — sameAs-разметка. Это превращает абстрактную задачу «усилить entity-сигнал» в конкретный приоритизированный список действий.
По наблюдениям, бренды с Wikipedia-статьёй и правильно заполненной Wikidata-записью имеют в среднем более высокий Mention Rate в провайдерах, интегрированных с Knowledge Graph, по сравнению с брендами без entity-профиля — при сопоставимом качестве контента на сайте.
Цифры: какая доля LLM-ответов цитирует Wikipedia
Точные цифры зависят от типа запроса и конкретного провайдера. По данным независимых исследований источниковой базы LLM:
- В запросах о компаниях, персонах и концепциях Perplexity ссылается на Wikipedia в 20-35% случаев.
- Google AI Overview включает данные из Knowledge Graph (Wikidata) почти в каждом ответе о сущностях.
- ChatGPT с включённым поиском Bing цитирует Wikipedia значительно реже напрямую, но Knowledge Panel Google в Bing-результатах также питается из Wikidata.
- Claude и DeepSeek реже раскрывают источники явно, но аналитика обучающих данных показывает высокую плотность Wikipedia в предобучающих корпусах.
Для фактических вопросов («кто основал», «когда основана», «что делает компания X») доля ответов, опирающихся на Wikipedia или Wikidata, существенно выше, чем для вопросов сравнительного или рекомендательного характера.
Чек-лист «Путь к entity»
| Этап | Действие | Статус |
|---|---|---|
| Источниковая база | Минимум 3-5 авторитетных редакционных материала о компании в независимых СМИ | |
| Источниковая база | Материалы освещают компанию развёрнуто, а не упоминают вскользь | |
| Wikidata | Создать запись с QID, заполнить P31 (instance of), P856 (website), P571 (inception) | |
| Wikidata | Добавить внешние идентификаторы: LinkedIn, Crunchbase, GitHub, X | |
| Wikidata | Указать sources для каждого утверждения | |
| Wikipedia | Оценить соответствие WP:N по накопленной источниковой базе | |
| Wikipedia | Создать статью через независимого редактора с раскрытием COI или дождаться независимого создания | |
| Wikipedia | Проверить нейтральность тона (WP:NPOV), верифицируемость (WP:V), отсутствие OR | |
| Сайт | Добавить JSON-LD Organization с sameAs на Wikidata QID и Wikipedia-статью | |
| Сайт | Включить в sameAs: LinkedIn, Crunchbase, GitHub и другие авторитетные профили | |
| Мониторинг | Настроить отслеживание Mention Rate и Domain Citation Rate в GEO Scout | |
| Мониторинг | Зафиксировать baseline до появления entity-профиля для корректного сравнения |
Entity-сигнал — это долгосрочная инвестиция
Wikipedia и Wikidata не дают мгновенного результата. Накопление источниковой базы занимает месяцы, создание Wikipedia-статьи — ещё столько же. Но entity-сигнал, в отличие от SEO-ссылок или рекламных публикаций, работает по нескольким каналам одновременно: обучающие данные, RAG-поиск, knowledge graph, entity resolution.
Особенность entity-оптимизации в том, что она самоусиливается: бренд с Wikidata QID получает больше структурированных упоминаний в других базах данных, что создаёт дополнительные сигналы для AI-систем, что в свою очередь повышает вероятность появления независимых публикаций — и так далее.
Подробнее о том, как выстраивать внешние упоминания системно, — в статье внешние упоминания для AI-видимости. О том, как правильно описать бренд для нейросетей на своём сайте, — в материале нарратив бренда для нейросетей. О прямом цитировании сайта AI-системами — в статье Domain Citation Rate: кого AI цитирует напрямую.
Чтобы понять, насколько entity-сигнал уже работает для вашего бренда, и получить конкретные рекомендации по следующим шагам — начните с бесплатного тарифа GEO Scout: 3 промпта в 3 нейросетях без привязки карты, Mention Rate и Domain Citation Rate в реальном времени.
Частые вопросы
Почему ChatGPT и Claude так часто цитируют Wikipedia?
Можно ли самостоятельно написать статью о своём бренде в Wikipedia?
Что такое Wikidata QID и зачем он нужен бренду?
Как быстро появится эффект на Mention Rate после создания Wikipedia-статьи?
Что делать, если Wikipedia-статью о бренде удалили?
Обязательно ли нужна статья в Wikipedia, чтобы AI упоминал бренд?
Что такое sameAs в Schema.org и как это связано с Wikidata?
Похожие статьи
Organization Schema, страницы авторов и страницы команды: как усилить доверие AI к бренду
Как связать главную страницу, Organization Schema, авторские профили и страницы команды, чтобы AI лучше понимал компанию, экспертов и официальные источники сайта.
Как формировать нарратив бренда для нейросетей: управление тем, что AI говорит о вас
Стратегическое руководство по формированию нарратива бренда в ответах AI: определение целевого нарратива, контент-стратегия, мониторинг консистентности, управление восприятием бренда нейросетями.
Внешние публикации и упоминания для роста AI-видимости бренда
Как внешние упоминания на vc.ru, Хабр, Отзовик, Яндекс.Дзен и других площадках влияют на AI-видимость. PR-стратегия для GEO, управление отзывами, отраслевые каталоги.