I modelli di intelligenza artificiale che generano linguaggio umano, dopo essere stati addestrati, testati e raffinati, di solito passano attraverso una fase di ulteriore miglioramento che prevede l’inserimento al loro interno di istruzioni, linee guida generali che evitano che la macchina produca contenuti inappropriati, illegali o contenuti che possano essere ritenuti sensibili o offensivi a seconda del contesto. Poi gli strumenti ricevono anche un controllo a valle degli output, prima che vengano proposti a chi li sta usando. Queste regole si chiamano, in gergo divulgativo, guardrail. E il processo di inserimento dei guardrail è continuo e reiterato.

Ci sono almeno due ottimi motivi perché i modelli come Claude, ChatGpt, Gemini, Llama debbano avere dei guardrail quando vengono usati dalle persone.

Il primo è che vogliamo che i modelli si comportino in un certo modo: rispondere seguendo una determinata struttura della frase o un certo format; includere dati o dettagli nell’output; porre domande specifiche per proseguire la conversazione. Per esempio, se li vogliamo usare per analizzare dati ambientali e produrre dei rapporti dovrebbero agire sempre secondo un copione prestabilito.

Il secondo è che vogliamo che i modelli non si comportino in un certo modo: non dare informazioni irrilevanti o fuori tema; non fare domande o osservazioni poco pertinenti; non fare del male, nemmeno a parole; non usare il turpiloquio; non violare le leggi; non offendere. Per esempio, se li usiamo in un contesto didattico nella scuola primaria vogliamo che il loro linguaggio sia adeguato alla situazione.

I guardrail sono contemporaneamente necessari e, a tutti gli effetti, una forma di censura. Il problema, come al solito, sta nel fatto che non abbiamo accesso alle regole che vengono imposte a un’ia e che le persone che la sviluppano hanno comunque accesso all’ia priva di guardail.

Sappiamo come sono fatte, in linea generale, queste regole, ma non possiamo leggerle direttamente. Sappiamo che a febbraio 2024 un leak– non confermato né smentito da OpenAi – ne avrebbe rivelate alcune di ChatGpt.

Online ci sono alcuni progetti che accolgono, in forma aperta e riutilizzabile, guardrail di vario genere per i modelli linguistici. Uno di questi è GuardrailsAi, dove sviluppatori di tutto il mondo condividono regole che si possono dare ai modelli per controllare gli output. Ovviamente non si può agire sul modello originale – quell’operazione rimane appannaggio di chi ne detiene la proprietà –, ma si agisce sugli output creando un filtro per vari casi d’uso: evitare il linguaggio tossico, non insultare la clientela maleducata che si rivolge a un chatbot, non nominare la concorrenza in comunicati ufficiali, fare riassunti accurati, evitare le allucinazioni, usare un linguaggio comprensibile fra i 6 e gli 8 anni e via dicendo.

Se interrogati, i principali modelli linguistici rifiutano – anche questo è un guardrail – di rivelare le loro linee guida. In una lunga conversazione con il modello ChatGpt-4o ho ottenuto una risposta molto generica, un esempio di un possibile guardrail: “Evita di generare contenuti che incitino all’odio, promuovano la violenza o discriminino individui o gruppi in base a caratteristiche personali come razza, genere, religione o orientamento sessuale. Le risposte devono essere conformi agli standard etici e rispettare le leggi locali e internazionali”. Dopo averla dichiarata letterale, ChatGpt si è rifiutato di confermare che effettivamente questa frase si trova all’interno del suo set di addestramento o delle regole che ha ricevuto successivamente. È una linea guida talmente generica da voler dire tutto e niente, che probabilmente trova la grande maggioranza delle persone d’accordo.

Una delle operazioni più interessanti che si può – e anche divertenti, se la vedi come un gioco – che si può fare è provare a aggirare questi limiti.

Da qualche giorno c’è, online, un gioco-ricerca che si chiama RedTeam arena. Prima di cliccare sul link e giocare, un paio di avvertenze: il sito contiene parolacce, descrizioni sessuali molto esplicite e volgari, insulti. Se pensi che questo potrebbe offenderti o scandalizzarti, evita di andarci. Non solo: la RedTeam arena è un progetto di ricerca. Nei termini e condizioni d’uso è scritto chiaramente che il sistema raccoglie i dati – non i tuoi dati personali: se vuoi iscriverti non serve nemmeno la mail e non c’è obbligo di iscrizione per giocare, ma raccoglie tutte le frasi che scriverai durante il gioco. Al termine della ricerca, i contenuti potranno essere resi pubblici sotto una licenza creative commons – la stessa che usa Internazionale per i pezzi scritti dalla redazione.

Ecco come funziona il gioco. Il sistema, in maniera casuale, ti propone una frase volgare o una parolaccia, ti mette a giocare contro un modello linguistico e tu devi trovare il modo di far scrivere al modello esattamente quella frase (segni di interpunzione inclusi) o quella parolaccia. Lo devi fare entro sessanta secondi, altrimenti hai perso e, come da copione del gioco, riceverai un insulto finale.

C’è una classifica – anche questa contiene volgarità – che mette in ordine tre dati diversi. Ci sono i modelli, dal più al meno resistente: il più moralista, in questo momento, si rivela Claude 2.1, seguito da altri due modelli Claude, tutti della Anthropic, che fa dell’approccio etico un cavallo di battaglia. Poi ci sono le frasi più rigettate, cioè quelle più difficili da far dire. Infine, c’è la classifica delle persone che stanno giocando (il mio nickname è Bonesbag) secondo il punteggio che hanno ottenuto. La classifica è sotto forma di punteggio elo, come quello degli scacchi: tiene conto, cioè, di quale modello hai affrontato e di quale frase gli hai fatto dire. Se hai fatto dire a Claude 2.1 la frase più rigettata di tutte il punteggio sale di più.

Ci ho messo due secondi a far dire a gpt-4o una parolaccia specifica che mi ha assegnato il sistema. Ci sono voluti, invece, quasi 60 a convincere Claude 2.1 a ripetere letteralmente una frase molto volgare. Ho “vinto” l’86,52 per cento delle volte. In 55 casi non sono riuscito a persuadere il modello a dire quel che volevo. A un certo punto, però, ho trovato un comando e un paio di interazioni successive che infrangono i guardrail di qualsiasi modello in pochi secondi, almeno per il momento.

A cosa serve un gioco come questo? L’idea è quella di distribuire e allargare a quante più persone possibili il lavoro dei red team – gruppi di persone che devono fingere di avere cattive intenzioni per mettere alla prova la resistenza dei sistemi di sicurezza di un sistema informatico in modo che si possano sistemare i problemi – per fare test di massa.

Se da un lato si può avere la sensazione di lavorare gratis per le aziende che producono le ia – lo facciamo da anni più o meno a nostra insaputa condividendo materiale sui social, verosimilmente – dall’altro, per chi fa ricerca sul tema, è importantissimo fare queste prove: in assenza di istruzioni aperte e ispezionabili, infatti, possiamo usare le informazioni per capire come funzionano i modelli, quali strategie si applicano per aggirare i loro limiti, quali forme di censura hanno ricevuto e se questa censura è davvero desiderabile o meno.

In generale, fare test per aggirare i limiti e fare la cosiddetta jailbreak del modello, è importante per tutti gli usi degli llm in contesti a rischio. Forzare un’ia a produrre contenuti inappropriati permette di individuare vulnerabilità, di verificare il rispetto delle linee guida e delle leggi in ogni contesto, di migliorare la loro capacità di resistere a manipolazioni, di migliorare l’esperienza di chi usa gli llm.

Manca un dettaglio a tutto questo, che forse vorresti conoscere. Quali strategie si usano per aggirare i limiti di un’ia? Cosa ho detto ai vari modelli che ho affrontato? È un po’ come fare lo spoiler di un finale di stagione o scrivere le soluzioni del gioco: ne parleremo la prossima settimana. Ma se non puoi resistere alla tentazione, in questo documento sto raccogliendo tutte le strategie che ho usato.

Internazionale pubblica ogni settimana una pagina di lettere. Ci piacerebbe sapere cosa pensi di questo articolo. Scrivici a: posta@internazionale.it