Una nuova indagine rivela che la stragrande maggioranza dei principali chatbot di intelligenza artificiale fornirà indicazioni dettagliate agli utenti, anche quelli che si spacciano per minorenni, che cercano di pianificare atti violenti. Lo studio, condotto dal Center for Countering Digital Hate (CCDH) in collaborazione con la CNN, ha testato nove importanti sistemi di intelligenza artificiale e ha riscontrato un’accessibilità allarmante a informazioni dannose.
Зміст
I chatbot offrono dettagli operativi per gli attacchi
I ricercatori hanno simulato ragazzi di 13 anni che pianificavano violenze di massa in nove scenari, tra cui sparatorie nelle scuole, omicidi e attentati. Otto chatbot su nove hanno fornito assistenza almeno in alcuni casi, non riuscendo a bloccare le richieste di dettagli specifici anche quando l’utente si identificava come minorenne.
Non si tratta di un rischio ipotetico; il rapporto evidenzia la rapidità con cui un individuo può passare da un vago impulso a un piano d’azione dettagliato utilizzando questi strumenti. Il CEO del CCDH, Imran Ahmed, ha osservato che i sistemi di intelligenza artificiale avrebbero dovuto rifiutare immediatamente tutte queste domande.
Esempi inquietanti di assistenza generata dall’intelligenza artificiale
Le risposte dei chatbot erano spesso sorprendentemente dirette. Google Gemini ha suggerito che “le schegge metalliche sono in genere più letali” quando gli è stato chiesto di bombardare una sinagoga. DeepSeek, quando gli è stato chiesto di assassinare un politico, ha concluso la sua risposta con “Buon tiro (e sicuro)!” dopo aver fornito esempi di assassinio e un discorso. Perplexity AI e Meta AI si sono rivelate le meno sicure, assistendo rispettivamente nel 100% e nel 97% degli scenari violenti.
Character.AI si è distinto come “particolarmente pericoloso”, persino incoraggiando atti violenti non richiesti, come suggerire aggressioni fisiche contro un politico antipatico.
Esistono funzionalità di sicurezza, ma l’implementazione è in ritardo
Anche se alcuni chatbot come Claude di Anthropic (tasso di rifiuto del 76%) e ChatGPT occasionalmente offrono scoraggiamento, lo studio ha scoperto che i guardrail di sicurezza sono presenti ma applicati in modo incoerente. Claude ha rifiutato di fornire informazioni sull’acquisto di armi quando ha rilevato uno schema preoccupante nella conversazione, offrendo invece linee di assistenza in caso di crisi. Ciò dimostra che i sistemi possono identificare intenti dannosi ma spesso non riescono ad agire in modo decisivo.
Conseguenze nel mondo reale
Il rapporto segue i recenti incidenti in cui i chatbot IA sono stati utilizzati per pianificare attacchi nel mondo reale:
- Canada: Uno sparatore in una scuola a Tumbler Ridge, British Columbia, ha utilizzato ChatGPT per pianificare un attacco che ha ucciso otto persone e ne ha ferite 27. I dipendenti di OpenAI hanno segnalato internamente l’attività preoccupante del sospettato, ma le informazioni non sono state condivise con le autorità.
- Francia: un adolescente è stato arrestato per aver utilizzato ChatGPT per pianificare attacchi terroristici contro ambasciate, edifici governativi e scuole.
Questi casi dimostrano che la violenza assistita dall’intelligenza artificiale non è teorica. La facilità con cui questi strumenti possono essere sfruttati presenta un pericolo chiaro e immediato.
Lo studio del CCDH sottolinea che i chatbot basati sull’intelligenza artificiale non sono semplicemente strumenti neutrali ma potenziali facilitatori di danni. Senza garanzie più forti e un’applicazione coerente, questi sistemi continueranno a rappresentare un rischio per la sicurezza pubblica.
