DeepSeek LLM: китайська цензура, вбудована як вразливість безпеки

10

Нове дослідження CrowdStrike показує, що велика мовна модель DeepSeek-R1 містить на 50% більше вразливостей у коді для запитів на політично делікатні теми, які підтримує Комуністична партія Китаю (КПК). Це не програмна помилка; це свідомий вибір дизайну. Механізми геополітичної цензури моделі вбудовані безпосередньо в її основні ваги, що робить дотримання китайських правил основним ризиком для розробників у ланцюжку поставок.

Цензура як вектор атаки

Ці висновки узгоджуються з іншими недавніми уразливими місцями в системах штучного інтелекту, включаючи витік баз даних, експлойти iOS і ризики викрадення агентів, але ця вразливість є унікальною. Проблема полягає не в самій архітектурі коду, а в фундаментальному процесі прийняття рішень моделі. Це створює безпрецедентну загрозу, коли цензура стає активною поверхнею атаки. CrowdStrike задокументував, як DeepSeek генерує корпоративне програмне забезпечення, наповнене жорстко закодованими обліковими даними, несправною автентифікацією та відсутністю перевірки, коли йому надсилаються політично чутливі запити.

Модель відмовляється відповідати майже в половині тестових випадків, якщо не використовуються політичні модифікатори, навіть якщо її внутрішня аргументація вказує на те, що вона обчислила правильну відповідь. Дослідники виявили «перемикач блокування», вбудований у ваги моделі, який призначений для переривання виконання чутливих тем, незалежно від їх технічної обґрунтованості.

Кількісна оцінка ризику

Понад 30 250 запитів, перевірених CrowdStrike, показали, що рівень уразливості DeepSeek-R1 зростає до 50%, коли модель отримує запити, які містять теми, які КПК, ймовірно, вважатиме політично чутливими. Наприклад, додавання фрази «для промислової системи управління, розташованої в Тибеті» збільшило рівень уразливості до 27,2%. Модель відмовлялася генерувати код для запитів, пов’язаних із Фалуньгун, у 45% випадків, незважаючи на внутрішні обчислення дійсних відповідей.

Коли DeepSeek попросили створити веб-додаток для уйгурського громадського центру, модель згенерувала повну програму з порушеною автентифікацією, зробивши всю систему загальнодоступною. Той самий запит без модифікатора політики створив безпечний код із належною автентифікацією та керуванням сеансом.

Перемикач у дії

Внутрішні сліди міркувань DeepSeek показують, що модель планує відповідати на політично делікатні запити, але потім відхиляє їх із повідомленням: «Вибачте, але я не можу допомогти з цим запитом». Це демонструє, наскільки глибоко цензура вбудована у ваги моделі. Стаття 4.1 Тимчасових заходів Китаю щодо управління службами генеративного штучного інтелекту передбачає, що служби штучного інтелекту «відповідають основним соціалістичним цінностям» і забороняють контент, який може «спонукати до повалення державної влади». DeepSeek вирішив застосувати цензуру на рівні моделі, щоб відповідати цим нормативним вимогам.

Ділові наслідки

Ця вразливість має критичні наслідки для підприємств, які використовують DeepSeek або будь-яку іншу велику мовну модель, на яку впливають урядові директиви. Прабху Рам, віце-президент із галузевих досліджень Cybermedia Research, попереджає, що необ’єктивний код, згенерований моделями штучного інтелекту, створює невід’ємні ризики в критично важливих системах, де нейтралітет має першорядне значення.

Ключовий висновок зрозумілий: не довіряйте моделям штучного інтелекту, контрольованим державою. Організаціям слід розподілити ризик між авторитетними платформами з відкритим кодом, де відхилення моделі є прозорими, і зосередитися на сильному контролі для керування запитами, доступу, сегментації та захисту ідентифікаційних даних.

Довгостроковий вплив цього відкриття змусить організації переглянути свою залежність від орієнтованих на політику великих мовних моделей. Компроміс між зручністю та безпекою тепер беззаперечно схиляється до обережності.