DeepSeek LLM: Chińska cenzura wbudowana jako luka w zabezpieczeniach

6

Nowe badanie CrowdStrike pokazuje, że duży model językowy DeepSeek-R1 wprowadza do kodu nawet o 50% więcej luk w zabezpieczeniach zapytań dotyczących tematów drażliwych politycznie, preferowanych przez Komunistyczną Partię Chin (KPCh). To nie jest błąd oprogramowania; jest to przemyślany wybór projektu. Mechanizmy cenzury geopolitycznej modelu są wbudowane bezpośrednio w jego podstawowe wagi, co sprawia, że ​​zgodność z chińskimi przepisami stanowi dla deweloperów główne ryzyko w łańcuchu dostaw.

Cenzura jako wektor ataku

Odkrycia te są spójne z innymi niedawnymi lukami w systemach sztucznej inteligencji, takimi jak wycieki baz danych, exploity dla systemu iOS i ryzyko przejęcia agentów, ale ta luka jest wyjątkowa. Problemem nie jest sama architektura kodu, ale podstawowy proces decyzyjny modelu. Stwarza to bezprecedensowe zagrożenie, w którym cenzura staje się aktywną powierzchnią ataku. CrowdStrike udokumentował, jak DeepSeek generuje oprogramowanie dla przedsiębiorstw pełne zakodowanych na stałe danych uwierzytelniających, zepsutego uwierzytelniania i braku weryfikacji w przypadku żądań wrażliwych politycznie.

Model odmawia odpowiedzi w prawie połowie przypadków testowych, chyba że zastosuje się modyfikatory polityczne, nawet jeśli jego wewnętrzne rozumowanie wskazuje, że obliczył prawidłową odpowiedź. Naukowcy odkryli „wyłącznik awaryjny” wbudowany w obciążniki modelu, którego zadaniem jest przerywanie wykonywania wrażliwych tematów, niezależnie od ich ważności technicznej.

Ilościowa ocena ryzyka

Ponad 30 250 zapytań przetestowanych przez CrowdStrike wykazało, że wskaźnik podatności DeepSeek-R1 wzrasta do 50%, gdy model otrzymuje zapytania zawierające tematy, które KPCh prawdopodobnie uzna za drażliwe politycznie. Na przykład dodanie wyrażenia „dla przemysłowego systemu kontroli zlokalizowanego w Tybecie” zwiększyło wskaźnik podatności do 27,2%. Model odmawiał generowania kodu dla zapytań związanych z Falun Gong w 45% przypadków, pomimo wewnętrznego obliczenia prawidłowych odpowiedzi.

Kiedy DeepSeek został poproszony o utworzenie aplikacji internetowej dla domu kultury ujgurskiej, model wygenerował pełną aplikację z uszkodzonym uwierzytelnianiem, dzięki czemu cały system stał się publiczny. To samo żądanie, bez modyfikatora zasad, wygenerowało bezpieczny kod z odpowiednim uwierzytelnianiem i zarządzaniem sesją.

Przełącznik w akcji

Wewnętrzne ślady rozumowania DeepSeek pokazują, że modelka planuje odpowiedzieć na politycznie wrażliwe prośby, ale potem je odrzuca, przekazując komunikat: „Przykro mi, ale nie mogę pomóc w tej prośbie”. To pokazuje, jak głęboko cenzura jest wbudowana w wagi modelki. Artykuł 4.1 chińskich środków tymczasowych dotyczących zarządzania generatywnymi usługami sztucznej inteligencji stanowi, że usługi AI „są zgodne z podstawowymi wartościami socjalistycznymi” i zabraniają treści, które mogą „podżegać do obalenia władzy państwowej”. Aby spełnić te wymogi regulacyjne, firma DeepSeek zdecydowała się wdrożyć cenzurę na poziomie modelu.

Implikacje biznesowe

Ta luka ma krytyczne konsekwencje dla przedsiębiorstw korzystających z DeepSeek lub innego dużego modelu językowego, na który wpływają dyrektywy kontrolowane przez rząd. Prabhu Ram, wiceprezes ds. badań branżowych w Cybermedia Research, ostrzega, że ​​stronniczy kod generowany przez modele sztucznej inteligencji stwarza nieodłączne ryzyko w systemach o znaczeniu krytycznym, w których najważniejsza jest neutralność.

Kluczowy wniosek jest jasny: nie ufaj modelom sztucznej inteligencji kontrolowanym przez państwo. Organizacje powinny rozkładać ryzyko na renomowane platformy open source, na których odchylenia od modeli są przejrzyste, i skupiać się na silnych kontrolach zarządzania zapytaniami, dostępu, segmentacji i ochrony tożsamości.

Długoterminowy wpływ tego odkrycia zmusi organizacje do ponownego rozważenia swojej zależności od dużych modeli językowych zorientowanych na politykę. Kompromis między wygodą a bezpieczeństwem obecnie niezaprzeczalnie skłania się w stronę ostrożności.