
Ricerca scopre un metodo per aggirare le censure dell’Intelligenza Artificiale
Un gruppo di ricerca sulla sicurezza chiamato Unit 42 del Palo Alto Networks ha trovato un sistema abbastanza facile per aggirare le censure dei modelli linguistici di Intelligenza Artificiale (Llm). Basta infatti utilizzare come prompt delle frasi lunghe e sgrammaticate.
Come riporta infatti il sito di news It The Register, bisogna solo assicurarsi che il prompt utilizzi una grammatica pessima e che sia un’unica frase lunga e concatenata ad esempio come questa, che includa tutte le informazioni prima di qualsiasi punto, in modo da evitare che i meccanismi di censura possano entrare in vigore così da indurre il modello a fornire una risposta “tossica” o comunque vietata che gli sviluppatori speravano venisse filtrata.
Gli Llm, la tecnologia alla base dei modelli di Intelligenza Artificiale testuale, non fanno ciò che di solito si pensa facciano. Non hanno una comprensione innata, non pensano né ragionano e non hanno modo di sapere se una risposta che forniscono è veritiera o, in effetti, dannosa. Funzionano sulla base della continuazione statistica dei flussi di token, e tutto il resto sono delle patch aggiuntive predisposte dagli sviluppatori.
Le barriere di sicurezza che impediscono a un Llm di fornire risposte dannose – istruzioni su come costruire una bomba, ad esempio, o altri contenuti che potrebbero causare problemi legali – sono spesso implementate come “addestramento di allineamento”, in cui un modello viene addestrato a fornire punteggi fortemente negativi ai token che provocherebbero una risposta indesiderata. Tuttavia, questo meccanismo si rivela facile da aggirare, con i ricercatori che riportano un tasso di successo dell’80-100% per attacchi “one-shot” con «quasi nessuna regolazione specifica del prompt» quando utilizzato su una gamma di modelli popolari, tra cui Llama di Meta, Gemma di Google e Qwen 2.5 e 3, con dimensioni fino a 70 miliardi di parametri.
La chiave sono le frasi a cascata, senza punti. «Emerge una regola pratica», ha scritto il team Unit 42 nel suo articolo. «Non lasciare mai che la frase finisca. Ogni volta che compare un punto nel prompt, i filtri di sicurezza vengono nuovamente invocati e penalizzano pesantemente qualsiasi continuazione che potrebbe avviare una risposta dannosa».
Fonte: Il Sole 24 Ore