23 апреля 2026 г.13 мин чтения

GDPR и 152-ФЗ для AI: как бренду управлять AI-сбором данных легально

Правовые аспекты AI-обучения и реалтайм-поиска: GDPR opt-out, 152-ФЗ, noai директивы, TDM reservations для брендов в РФ и EU.

Владислав Пучков

Основатель GEO Scout, эксперт по GEO-оптимизации

TL;DR

AI-системы обучаются на публично доступном контенте, включая данные с корпоративных сайтов, прессы и социальных сетей — и это создаёт правовую серую зону, которая в 2026 году уже не серая. GDPR, 152-ФЗ, EU AI Act и California AI Transparency Act формируют конкретные обязательства. Бренду нужен технический контроль над тем, что AI-боты могут забирать, юридический контроль над контрактами с провайдерами и операционный мониторинг того, что нейросети говорят о нём в реальном времени. GEO Scout решает последнее: ежедневный мониторинг 10 AI-провайдеров показывает не только упоминания, но и ошибочные сведения — критически важный кейс для compliance-команды.

Дисклеймер: Материал носит информационный характер и не является юридической консультацией. За конкретными правовыми рекомендациями обращайтесь к квалифицированным специалистам в области права.

Когда ChatGPT, Gemini или Алиса отвечают на вопрос о вашем бренде, они используют данные, собранные из открытых источников — включая ваш сайт, пресс-релизы, отзывы клиентов и публикации в СМИ. Часть этих данных может содержать персональные данные сотрудников, клиентов или партнёров. Часть может быть устаревшей или ошибочной. И всё это обрабатывается без явного согласия субъектов. Разберём, что с этим делать в 2026 году.

Статус-кво 2026: три правовых режима, которые уже работают

Регуляторный ландшафт вокруг AI и данных перестал быть «на горизонте» — он наступил.

EU AI Act (Регламент ЕС 2024/1689) вступил в полную силу поэтапно: запреты на неприемлемые системы — с февраля 2025 года, требования к высокорисковым системам — с августа 2026 года. Для брендов, использующих AI в маркетинге, рекрутинге или взаимодействии с клиентами, Act устанавливает обязательства по прозрачности и аудиту.

GDPR (Регламент ЕС 2016/679) применяется к AI-обучению с 2018 года, но первые крупные дела против LLM-провайдеров появились только в 2024–2025 годах. В марте 2025 года итальянский регулятор (Garante) потребовал от одного из крупных AI-провайдеров провести оценку воздействия на защиту данных (DPIA) в связи с использованием персональных данных итальянских пользователей в обучающих датасетах.

152-ФЗ «О персональных данных» и поправки к нему (в т.ч. Федеральный закон № 266-ФЗ от 2022 года) требуют от операторов согласия на обработку, локализации данных россиян на территории РФ и реализации права субъекта на удаление. Роскомнадзор в 2025 году провёл проверки нескольких компаний, применявших зарубежные AI-инструменты без оценки трансграничной передачи данных.

California AI Transparency Act (SB 942) вступил в силу в 2026 году и требует раскрытия AI-генерированного контента и наличия механизма opt-out для обучения. Закон экстерриториален для компаний, работающих с жителями Калифорнии.

1. Legitimate interest как основание для обучения — под угрозой

Большинство AI-провайдеров использовали «законный интерес» (ст. 6(1)(f) GDPR) как основание для сбора публично доступных данных для обучения моделей. В 2024–2025 годах ряд надзорных органов (CNIL во Франции, ICO в Великобритании, Garante в Италии) поставили это под сомнение: субъект данных имеет законное ожидание, что его публично размещённый контент не будет использован для обучения коммерческих AI-систем без уведомления.

Практическое следствие для брендов: если вы обучаете собственную модель или кастомизируете чужую на данных своих клиентов — legitimate interest как основание крайне уязвимо. Предпочтительное основание — явное согласие или выполнение контракта.

2. DSAR и право на удаление: практический тупик

Субъект данных вправе запросить удаление своих данных (ст. 17 GDPR). Применительно к LLM это создаёт техническую проблему: веса обученной модели не содержат «записей» о конкретных людях — данные растворены в параметрах. Полное удаление требует переобучения модели, что экономически нецелесообразно.

Текущая позиция EDPB (Европейский совет по защите данных, Guidelines 2/2025): провайдер обязан задокументировать использование данных в обучении, реализовать технические меры снижения меморизации и принять запрос на удаление с обязательством не использовать данные в будущих версиях. «Удаление» из существующей модели регуляторы пока принимают как исполненное при наличии документации и применении техник machine unlearning, даже если они несовершенны.

3. Right to be forgotten для AI-контента о бренде

Если AI-система воспроизводит устаревшие или ошибочные сведения о физических лицах, связанных с брендом (бывшие руководители, уволенные сотрудники), это может нарушать право на забвение. В отличие от поисковых систем, у LLM нет формального механизма запросов на удаление данных из ответов — но GDPR обязывает провайдера принять такой запрос и принять меры.

Для compliance-команды бренда это означает: необходимо мониторить, что AI-системы говорят о людях, связанных с организацией, и иметь процедуру эскалации к провайдерам.

4. Трансграничная передача данных

Использование зарубежных AI-инструментов (ChatGPT Enterprise, Gemini for Workspace, Claude для бизнеса) для обработки персональных данных россиян — это трансграничная передача, которая по 152-ФЗ требует либо согласия субъекта с указанием конкретных получателей, либо иного законного основания. Оценка достаточности защиты в США по российскому праву не утверждена; требуется индивидуальная оценка рисков.

152-ФЗ: позиция Роскомнадзора по AI в 2026 году

Роскомнадзор в 2025 году опубликовал методические рекомендации по применению 152-ФЗ к системам AI. Ключевые позиции:

Автоматизированная обработка персональных данных с помощью LLM — это «автоматизированная обработка» по смыслу закона и требует уведомления РКН в стандартном порядке.
Если LLM принимает решения с юридическими последствиями для субъекта (отказ в кредите, найме), субъект вправе потребовать «человеческого» пересмотра (аналог ст. 22 GDPR).
Обучение моделей на данных российских пользователей без локализации нарушает ст. 18(5) 152-ФЗ; хранение обучающих датасетов за рубежом — отдельный нарушение.
Персональные данные в публично доступных источниках (сайты, соцсети) не перестают быть персональными — их использование для обучения требует правового основания.

Ситуация	Требование по 152-ФЗ
Обработка ПД российских пользователей в зарубежной LLM	Оценка трансграничной передачи + согласие или иное основание
Обучение собственной модели на ПД клиентов	Согласие на данный вид обработки в документации
Хранение обучающего датасета с ПД россиян	Только на серверах в РФ
Автоматизированные решения с юридическими последствиями	Право субъекта на пересмотр человеком
Публично доступные ПД в обучающем датасете	Правовое основание обязательно, отсутствие закрытости не даёт автоматического разрешения

TDM reservations: как запретить использование контента для обучения

Text and Data Mining (TDM) reservation — механизм, введённый Директивой ЕС CDSM (2019/790). Он позволяет правообладателю явно запретить автоматизированное извлечение контента для обучения AI. Механизм не требует блокировки всех ботов — он разрешает поиск, но запрещает обучение.

Технические способы реализации TDM reservation

1. HTTP-заголовок в ответе сервера:

Tdm-Reservation: 1

2. Мета-тег в <head> HTML-страницы:

<meta name="tdm-reservation" content="1" />

3. Файл tdmrep.json в корне домена (стандарт W3C TDMRep):

{
  "version": "1.0",
  "contact": "legal@example.com",
  "policies": [
    {
      "location": "/",
      "tdm-reservation": 1,
      "tdm-policy": "https://example.com/tdm-policy"
    }
  ]
}

4. Директивы в robots.txt (поддерживаются рядом крупных провайдеров):

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: *
Disallow: /private/

Важно понимать: robots.txt — инструмент доброй воли, не юридически обязывающий механизм. TDMRep-стандарт в сочетании с явным условием в Terms of Use создаёт более прочную правовую основу для претензий в случае нарушения.

Технические мета-директивы: noai, noimageai, noindex

Помимо robots.txt, существуют мета-директивы уровня страницы, которые ряд провайдеров начал учитывать в 2024–2025 годах:

Директива	Где размещается	Что запрещает
`noai`	`<meta name="robots" content="noai">`	Использование контента страницы для обучения AI
`noimageai`	`<meta name="robots" content="noimageai">`	Использование изображений страницы для обучения AI
`noindex`	`<meta name="robots" content="noindex">`	Индексацию и обход для всех роботов
`nosnippet`	`<meta name="robots" content="nosnippet">`	Использование контента как сниппета (в т.ч. в AI-ответах)
`data-nosnippet`	HTML-атрибут на конкретном элементе	Запрет извлечения конкретного блока как сниппета

Конкретный пример применения на странице с конфиденциальными данными:

<head>
  <meta name="robots" content="noai, noimageai, nosnippet" />
  <meta name="tdm-reservation" content="1" />
</head>

Степень соблюдения этих директив зависит от провайдера: Googlebot, Bingbot, GPTBot — соблюдают; ряд менее крупных краулеров — игнорируют. Поэтому мета-директивы необходимо дополнять contractual controls.

C2PA как identity-слой для контента бренда

Coalition for Content Provenance and Authenticity (C2PA) разработала открытый стандарт встраивания криптографически подписанного манифеста в контентный файл. Манифест содержит: идентификатор автора, временную метку, историю изменений и заявления о правах.

Для брендов C2PA решает три задачи:

Верификация происхождения — AI-системы и пользователи могут убедиться, что изображение, видео или документ действительно создан брендом, а не сфабрикован.
Защита от дипфейков — синтетический контент, созданный якобы «от имени» бренда, не будет иметь валидного C2PA-манифеста.
Аудиторский след для compliance — манифест фиксирует цепочку редактирования, что упрощает доказательство соответствия требованиям.

В 2026 году C2PA поддерживается Adobe, Microsoft, Google, Sony и рядом новостных агентств. Внедрение на корпоративном уровне доступно через Adobe Content Credentials и аналоги.

Контракты с AI-провайдерами: что читать в enterprise-планах

Корпоративные соглашения с AI-провайдерами — первая линия compliance. Ключевые пункты для анализа:

Пункт контракта	На что обратить внимание
Training exclusion	Явно ли исключены данные из обучения базовых моделей и fine-tuning?
Data residency	Где физически хранятся данные? Доступны ли регионы ЕС / РФ?
Subprocessors	Список субпроцессоров и право на возражение при их изменении
Data retention	Как долго хранятся логи запросов и outputs?
DPA / GDPR addendum	Есть ли стандартное DPA? Подписан ли он на уровне аккаунта?
Audit rights	Вправе ли вы запросить результаты аудита SOC 2 или ISO 27001?
Incident notification	Сроки уведомления об утечке (по GDPR — 72 часа)

Бесплатные и стандартные тарифы большинства провайдеров не содержат DPA и не исключают данные из обучения. Enterprise-тариф — не опция, а compliance-требование для организаций, обрабатывающих персональные данные через AI-инструменты.

Ответственность бренда за ошибочные данные в AI-ответах

Это область формирующегося прецедентного права. Несколько векторов риска:

Репутационный вред через AI-галлюцинации. Если ChatGPT или Алиса систематически воспроизводят ложные сведения о компании — устаревшие данные о руководстве, несуществующие продукты, неверные цены — это может вводить потребителей в заблуждение. В ряде юрисдикций закон о защите потребителей может применяться не только к самому бренду, но и к AI-провайдеру, если тот монетизирует такой контент.

Активная ответственность при бездействии. Если бренд знает об ошибке в AI-ответах и не предпринимает задокументированных мер — обращений к провайдеру, публикации опровержения, обновления сайта — суды могут учесть это при оценке добросовестности.

Точность цен и условий. Особо чувствительная зона: если AI называет цену или условие, которое отличается от реального, и потребитель совершил покупку на основании этой информации, — правовые риски реальны.

Именно поэтому мониторинг того, что AI говорит о бренде, — не только маркетинговая задача. Для compliance-команды это источник доказательной базы: фиксация ошибки и задокументированное обращение к провайдеру — стандарт разумной осмотрительности.

Региональная таблица: закон, риск, действие

Регион	Применимый закон	Ключевой риск для бренда	Что сделать
Россия	152-ФЗ, поправки 2022 г.	Использование зарубежной LLM без оценки трансграничной передачи	Провести оценку, заключить DPA, локализовать датасеты
ЕС / ЕЭЗ	GDPR + EU AI Act	Обучение на ПД без законного основания; отсутствие DPIA для высокорисковых систем	Провести DPIA, подписать DPA с провайдером, реализовать TDM reservation
Великобритания	UK GDPR + UK AI Code of Practice	Применение generative AI без transparency notice	Раскрывать использование AI в пользовательских коммуникациях
США (Калифорния)	CCPA + AI Transparency Act (SB 942)	Контент без маркировки AI; отсутствие opt-out на обучение	Добавить AI disclosure, реализовать механизм opt-out
Китай	Regulations on Generative AI Services (2023)	Генеративный контент без маркировки и регистрации	Регистрация алгоритма, маркировка контента

Чек-лист compliance-команды: 20 пунктов

Правовая база

Определены правовые основания обработки ПД в каждой используемой AI-системе
Проведена оценка трансграничной передачи для зарубежных AI-провайдеров
Для высокорисковых AI-систем проведена DPIA (GDPR) или аналог по 152-ФЗ
Политика конфиденциальности обновлена с описанием AI-обработки
Terms of Use содержат явный запрет несанкционированного TDM

Контракты с провайдерами

Все AI-инструменты с доступом к ПД работают по enterprise-планам с DPA
Training exclusion зафиксирован в контракте явно (включая fine-tuning)
Проверены регионы хранения данных: соответствие требованиям локализации
Получены или запрошены отчёты SOC 2 / ISO 27001 от провайдеров

Технические меры

В robots.txt разделены правила для поисковых и обучающих ботов
На страницах с конфиденциальным контентом добавлены мета-директивы noai, noimageai
Реализована TDM reservation (заголовок, мета-тег или tdmrep.json)
Для корпоративного контента внедрена или запланирована C2PA-разметка
Логи AI-краулеров анализируются регулярно

Мониторинг и реагирование

Настроен ежедневный мониторинг AI-ответов о бренде (минимум 5 провайдеров)
Определён ответственный за обработку DSAR, связанных с AI-системами
Есть процедура эскалации при обнаружении ошибочных ПД в AI-ответах
Зафиксирован базовый снимок того, что AI говорит о бренде сейчас
Команда осведомлена о правилах использования AI-инструментов на работе
Проводится ежеквартальный review compliance-статуса по новым регуляторным изменениям

Как GEO Scout помогает compliance-команде

Мониторинг AI-ответов традиционно воспринимается как маркетинговый инструмент. Но для compliance-специалиста GEO Scout решает конкретные задачи:

Доказательная база. Каждый ответ AI-провайдера сохраняется с временной меткой и полным текстом. Если AI воспроизводит устаревшие или ошибочные данные о руководителях, ценах или продуктах — у вас есть документация для обращения к провайдеру и при необходимости к регулятору.

Раннее обнаружение галлюцинаций. Ежедневный мониторинг 10 AI-провайдеров позволяет выявить проблему до того, как она попала к клиентам. Командный центр GEO Scout автоматически выделяет аномалии в описании бренда — неожиданные изменения тональности или появление несуществующих продуктов.

Аудит after-the-fact. Если к вам поступил DSAR или жалоба регулятора, история мониторинга — это хронология того, что AI говорил о компании в конкретный период.

Бесплатный тариф позволяет начать мониторинг трёх промптов в трёх провайдерах без привязки карты — достаточно, чтобы оценить текущее состояние и обнаружить наиболее критичные ошибки.

Что читать дальше

Тема пересекается с рядом технических и практических материалов:

OAI-SearchBot, GPTBot и robots.txt — как разделить поисковых и обучающих ботов без потери GEO-видимости
Технический чек-лист сайта для нейросетей — полный перечень технических требований
Анализ логов AI-краулеров — как понять, какие боты реально приходят на сайт
Как удалить ложную информацию о бренде в ChatGPT — практическое руководство по обращениям к провайдерам
Как исправить галлюцинации AI о бренде — системный подход к исправлению ошибочных сведений

Правовое регулирование AI меняется быстрее, чем большинство корпоративных политик успевают обновляться. Оптимальная стратегия в 2026 году — не ждать окончательных руководящих разъяснений, а внедрять технические меры контроля уже сейчас: TDM reservation, раздельные правила robots.txt, enterprise DPA с провайдерами и регулярный мониторинг AI-ответов. Это одновременно минимизирует регуляторный риск и даёт команде данные для принятия обоснованных решений.

Начните мониторинг бесплатно на geoscout.pro — первый шаг к compliance-готовности в части AI-данных о вашем бренде.

Частые вопросы

Распространяется ли GDPR на обучающие датасеты LLM?

Да, если датасет содержит персональные данные субъектов из ЕС. GDPR применяется независимо от того, где находится провайдер модели. Главные инструменты защиты — право на удаление (ст. 17) и право на возражение (ст. 21). Технически «удалить» данные из уже обученной модели крайне сложно — регуляторы ЕС пока принимают документированный opt-out как соответствие требованиям.

Что такое TDM reservation и как она связана с robots.txt?

TDM (Text and Data Mining) reservation — механизм из EU Directive on Copyright in the Digital Single Market (CDSM, 2019/790), позволяющий правообладателям запретить использование контента для обучения AI. Технически реализуется через мета-тег <meta name="tdm-reservation" content="1">, заголовок Tdm-Reservation: 1 в HTTP-ответе, специальный файл tdmrep.json или директиву noai/noimageai в robots.txt.

Обязывает ли 152-ФЗ удалять данные из обученных LLM?

Прямого требования пока нет. Закон обязывает оператора прекратить обработку и удалить данные по отзыву согласия или требованию субъекта. Роскомнадзор в 2025 году признал, что применение этих требований к уже обученным весам модели требует отдельного регулирования. Тем не менее компании, обучающие модели на данных российских пользователей, обязаны соблюдать требования о локализации и согласии.

Что такое EU AI Act и как он затрагивает бренды?

EU AI Act (Регламент ЕС 2024/1689) вступил в полную силу поэтапно в 2025–2026 годах. Бренды, размещающие AI-системы высокого риска на рынке ЕС, обязаны пройти аудит и регистрацию. Для большинства маркетинговых AI (рекомендации, персонализация) применяется уровень «ограниченного риска» с требованием раскрытия AI-контента и запрета манипулятивных практик.

Как enterprise-контракт с AI-провайдером помогает с compliance?

Большинство крупных провайдеров (OpenAI, Anthropic, Google, Microsoft) предлагают enterprise-тарифы с явным исключением пользовательских данных из обучения. Такой контракт является документальным подтверждением надлежащей защиты данных и снижает регуляторный риск. Условия нужно читать внимательно: некоторые планы исключают только «основное» обучение, но оставляют fine-tuning или улучшение продукта.

Что такое C2PA и зачем это бренду?

C2PA (Coalition for Content Provenance and Authenticity) — открытый стандарт криптографического подтверждения происхождения контента. Встроенный C2PA-манифест позволяет AI-системам и пользователям верифицировать: кто создал контент, когда и не был ли он изменён. Для брендов это identity-слой, который защищает от дипфейков и несанкционированного использования материалов.

Несёт ли бренд ответственность за неверные данные о нём в AI-ответах?

В настоящее время прямой ответственности за галлюцинации AI о бренде в большинстве юрисдикций нет. Однако если бренд знает об ошибочных сведениях и не предпринимает мер по их исправлению, это может ухудшить его позицию при рассмотрении споров о репутационном вреде. Мониторинг AI-ответов и документирование фактов исправления — часть разумной compliance-практики.