Слив сквозь нейросеть: чем опасна загрузка документов в ИИ-сервисы

Матху Готтумуккала, ответственный за кибербезопасность США, загружал в ChatGPT ценные данные, хотя должен был предотвращать утечки. Дмитрий Овчинников, архитектор ИБ UserGate uFactor, о том, как помешать сотрудникам допустить ту же ошибку

РБК

Фото: РБК

Входит в сюжет
В этой статье

Этот материал входит в раздел «РБК Образование», где мы рассказываем, как развивать навыки, принимать взвешенные решения и двигаться по карьере осознанно.

Школа управления РБК — новый образовательный проект медиахолдинга, ориентированный на развитие руководителей. Встречаемся каждый четверг в 19:00 на онлайн-событиях, где вместе решаем сложные управленческие задачи.

Расписание и темы можно посмотреть здесь.

Матху Готтумуккала, исполняющий обязанности директора Агентства по кибербезопасности США, летом 2025 года загрузил в ChatGPT служебные документы, сообщало издание Politico.

Как рассказывали собеседники издания, эти материалы не были засекречены, однако считаются «чувствительными» и не предназначены для публичного распространения.

В России такой тип информации называется конфиденциальной, то есть это любая информация, которая не является публичной. Обычно ее разделяют на несколько типов: для служебного пользования, коммерческая тайна, служебная тайна. В данном случае произошла утечка документов для служебного пользования. Пример таких документов: внутренние акты, распоряжения или методики.

Руководство Министерства внутренней безопасности США (DHS) начало внутреннюю проверку и оценку возможного ущерба.

Почему загружать в нейросеть данные рискованно

Чтобы понять, чем опасна загрузка чувствительных данных в нейросеть, надо разобраться, как нейросеть работает.

ChatGPT и другие открытые нейросети — это, по сути, программы, которые получают текст, обрабатывают его с помощью математических алгоритмов и в ответ генерируют другой текст.

Модели обучены на большом массиве данных, поэтому «знают», какие слова и фразы обычно следуют друг за другом. Когда пользователь вводит запрос, они анализируют этот запрос и предсказывают следующее слово, исходя из смысла и контекста. Сгенерировав одно слово, модель заново оценивает уже получившийся текст и выбирает следующее — и так до тех пор, пока не выдаст полный ответ.

Что это значит?

Вся информация, которая загружается в нейросеть, навсегда остается в распоряжении ее создателя. Казалось бы, что в этом такого? Ведь создатель не хакер. Максимум, что он сделает, — использует информацию для обучения своей модели. Но это не так.

Риски при работе с языковыми моделями

Взаимодействие с внешними языковыми моделями несет два ключевых риска.

1. Передача чувствительных данных третьим лицам.

В процессе работы нейросеть не всегда может точно определить конечного пользователя, поэтому может ошибочно выдавать данные одного пользователя другому в качестве ответа. То есть «чувствительные» данные Агентства по кибербезопасности США теперь могут попасть к кому угодно.

Похожие случаи уже встречались. Так, в 2025 году ChatGPT выдал одному пользователю из США в ответе фамилию, имя и номер социального страхования. Видимо, эти данные были внесены другим пользователем, LLM их запомнила. После того как информация об этом случае попала в СМИ, появилось много свидетелей, подтверждающих подобное поведение модели.

Конечно же, в будущем эта уязвимость будет устранена за счет усиления мер информационной безопасности и настройки самих языковых моделей, но тем не менее пока что она сохраняется.

2. Хранение чувствительных данных и их использование для обучения языковой модели.

Инженеры, которые обслуживают языковую модель, могут быть совершенно не в курсе, что некомпетентный пользователь отправил важные данные в их LLM-систему, — допустим, потому что у них нет возможности оценить чувствительность этих данных, или же данные вовсе до них не дойдут, а будут использованы ИИ в автоматическом режиме для своего обучения. Поэтому есть большой риск того, что загруженные данные могут быть выданы в качестве легитимного ответа третьей стороне. Вне зависимости от того, в чьи руки попали данные, фактически это является разглашением информации.

Вступайте в сообщество Школы управления РБК в Telegram или MAX, чтобы общаться с руководителями из разных сфер, выстраивать нетворкинг и получать советы экспертов.

Нейросеть также может выдать ложный ответ. Это называется галлюцинация. Поэтому данные, которые выдает нейросеть, надо всегда проверять, прежде чем использовать их в своей работе.

Как защитить бизнес

Снижение рисков при работе с языковыми моделями начинается с управленческих решений. В крупных компаниях и ключевых госструктурах, где ставки особенно высоки, необходимо провести границу между «можно» и «нельзя», то есть четко определить допустимые сценарии использования ИИ.

1. Запретите загрузку в открытые ИИ-сервисы любых данных, способных прямо или косвенно идентифицировать бизнес-процессы, клиентов, сотрудников или внутреннюю архитектуру компании.

Речь идет не только о персональных данных, коммерческой тайне или документах с грифами, но и о фрагментах договоров, финансовых моделях, логах систем, внутренней переписке, об описаниях инцидентов и управленческих решениях.

Даже обезличенные на первый взгляд данные могут быть восстановлены в контексте модели. Запрет подобных действий должен быть в обязательном порядке учтен в политике или стандарте по информационной безопасности компании.

Граница между допустимым и недопустимым использованием открытых ИИ-сервисов проходит по линии ответственности. Всё, что компания готова публично озвучить, может быть предметом работы ИИ. Всё, за что компания несет юридическую, финансовую или репутационную ответственность либо что составляет предмет коммерческой или государственной тайны, должно оставаться под контролем человека без контакта с ИИ, особенно с общедоступными языковыми моделями.

2. Разграничьте задачи.

Укажите, что открытые ИИ-сервисы допустимо использовать для работы с общедоступной информацией, генерации черновых текстов, идей, обучения сотрудников базовым навыкам и т.п. Но недопустимо как источник финальных решений, экспертных выводов, юридически или финансово значимых рекомендаций.

Чем выше цена ошибки, тем дальше ИИ должен находиться от точки принятия решения.

3. Включите правила использования ИИ во внутренние регламенты наравне с политиками ИБ.

При этом сотрудники могут нести ответственность в зависимости от важности разглашенных данных, начиная от гражданско-правовой и заканчивая уголовной.

4. Обучайте сотрудников.

Объясните, где именно возникает риск и какие последствия он может иметь для компании/организации и лично для них.

Практика показывает, что формальные запреты без объяснений лишь стимулируют несанкционированное использование ИИ. И в первую очередь грамотность требуется от самих руководителей, иначе случаи, аналогичные инциденту с главой Агентства по кибербезопасности США, будут повторяться.

5. При необходимости откажитесь от использования открытых ИИ-сервисов.

Для организаций с повышенными требованиями к безопасности логичным шагом становится использование локально развернутых языковых моделей или корпоративных ИИ-платформ с контролируемым контуром данных.

Авторы
Теги
Дмитрий Овчинников, архитектор информационной безопасности UserGate uFactor