La lista dei nomi proibiti dall’intelligenza artificiale
I modelli linguistici di intelligenza artificiale devono evitare di produrre testi che violino la legge. Devono anche evitare di usare linguaggio inappropriato. Ma tra la fine di novembre e l’inizio di dicembre del 2024 abbiamo scoperto che, in alcuni casi, devono anche evitare di scrivere certi nomi di persona.
Tutto è iniziato con David Mayer: alcune persone si erano accorte che scrivere “David Mayer” causava un’immediata interruzione della conversazione con ChatGpt e, in alcuni casi, un messaggio d’errore: “I’m unable to produce a response” (“non sono in grado di rispondere”).
Ma chi è David Mayer? Dipende. Se cerchi su un motore di ricerca il nome – filtrando i risultati prima dell’inizio di questa storia, come ho fatto qui – o se provi a guardare su Wikipedia in varie nazioni troverai, per esempio: una marca di abbigliamento; un compositore, direttore d’orchestra e docente dell’Mit che si chiamava David Mayer Epstein, fra l’altro autore di libri che sembrerebbero interessanti per i temi legati all’intelligenza sugli aspetti biologici dell’estetica e sul rapporto fra musica e cervello; un membro della ricchissima famiglia di banchieri Rotschild, David Mayer de Rothschild; uno storico britannico, David Mayer. E poi ci sono anche David R. Mayer, politico statunitense e sindaco di Gloucester Township, in New Jersey, e David Delaney Mayer, un documentarista statunitense del 1992.
Cercando ancora troverai sicuramente altri omonimi. Comunque, lo storico e il direttore d’orchestra sono morti rispettivamente nel 2023 e nel 2002. Gli altri due sono troppo poco noti per far notizia. Rothschild, invece, è ancora vivo, ricchissimo, definito “avventuriero ambientalista” – suo il progetto Plastiki – appare perfetto per finire in qualche teoria del complotto e sotto i riflettori del giornalismo. Solo che Rothschild ha negato di aver chiesto alla OpenAi di bloccare il suo nome e poi è venuto fuori che si è trattato di un bug. Almeno, così dicono sempre dalla OpenAi: in effetti, ora, se chiedi a ChatGpt “chi è David Mayer” ottieni un elenco simile a quello che ho appena proposto (di solito non parla del compositore e della marca di abbigliamento).
Però la lista dei nomi proibiti per ChatGpt esiste: Brian Hood, Jonathan Turley, Jonathan Zittrain, David Faber sono tutti nomi che bloccano lo strumento. Così come il nome di Guido Scorza, componente del collegio del garante per la protezione dei dati personali in Italia.
“Ho semplicemente esercitato nei confronti della OpenAi, la società che gestisce ChatGpt”, dice Scorza “il diritto di opposizione che la vigente disciplina europea riconoscere a tutti gli interessati – ovvero le persone cui si riferiscono i dati personali – per ottenere che un trattamento iniziato in assenza di loro consenso, venga interrotto dal titolare del trattamento. Chiunque, almeno se vive in Europa, può fare altrettanto semplicemente attraverso la piattaforma utilizzata per l’erogazione del servizio ChatGpt, ottenendo, ritengo, lo stesso risultato”.
Il link per farlo è questo.
Ma ha senso “togliersi da ChatGpt”? E cosa comporta? I large language model non sono hard disk. Non contengono le informazioni come gli hard disk contengono un file. Sono stati addestrati su informazioni. Le hanno – usando impropriamente termini umani – “lette” e “imparate”. Non contengono le informazioni esattamente come la nostra mente non contiene tutti i libri che ha letto.
I modelli linguistici di questa generazione in alcuni casi fanno anche ricerche sul web. Quando non le fanno, se fai domande su fatti o personaggi poco noti, spesso non ottieni risposte. Quando le fanno, le informazioni che offrono derivano direttamente dai siti che le contengono (più o meno come quando si fa una ricerca su Google).
Inoltre, quando chiediamo a ChatGpt l’elenco dei componenti del collegio del garante per la privacy in Italia l’effetto paradossale della richiesta di opposizione di Scorza è che il sistema si blocca quando arriva al suo nome nell’elenco.
Il senso di “togliersi” da ChatGpt risiede, allora, in una forma di precauzione estrema (o almeno, così penso) e di possibile tutela per ciascuno di noi. Questa precauzione e tutela, però, comporta una serie di problemi e di paradossi.
Primo: le figure pubbliche che rappresentano un’istituzione hanno i loro nomi e ruoli resi pubblici per legge. La loro attività e i dati essenziali sul loro incarico devono essere accessibili per garantire trasparenza e responsabilità. In questo caso, il fatto che un llm non possa menzionare direttamente i loro nomi appare in contraddizione con questi principi.
Secondo. Se la richiesta di blocco è pensata per rispettare eventuali diritti individuali e per evitare errori, a volte è in conflitto con il diritto delle persone di accedere a informazioni pubbliche. Il rischio è di fornire informazioni errate o di occultarne altre immotivatamente, ma anche di aumentare il divario fra chi ha mezzi e chi non ne ha. Per analogia, pensiamo al fatto che, di recente, l’account social che monitorava i jet dei ricchissimi è stato bandito dalle piattaforme. Il principio di cancellazione può diventare facilmente uno strumento che, ancora una volta, favorisce chi ha di più.
Inoltre, le policy della OpenAi sembrano applicare un principio uguale per tutti, ignorando le sfumature di contesto. È vero che è un problema che deve risolvere la OpenAi, ma come si fa in caso di omonimia? Un modello linguistico, per gestire l’omonimia, deve essere in grado di conoscere – e dunque aver accesso in qualche modo – anche alle informazioni dell’omonimo che ha chiesto il proprio blocco, per poter rispondere. Se un Alberto Puliafito decidesse di bloccarsi su ChatGpt, Gemini, Claude e via dicendo, anch’io verrei cancellato, per come funzionano le ia generative.
Infine, quando si evita di nominare figure pubbliche per timore di sbagliare o violare diritti, si rischia di erodere il valore stesso delle tecnologie che abbiamo inventato: paradossalmente, ciò può anche alimentare confusione e dubbi sulla neutralità o efficacia di questi sistemi.
Ho proposto a Guido Scorza le mie considerazioni e ne abbiamo parlato brevemente mentre chiudevo questo numero di Artificiale. Scorza mi ha raccontato di aver esercitato il proprio diritto all’opposizione con OpenAi tempo fa e di averlo fatto prima di tutto come esperimento. Quindi abbiamo parlato della funzione di questi strumenti: “Ci stiamo abituando a usare questi sistemi anche come fonte di informazione. Però, come dicono gli stessi fornitori di questi servizi – forse non in maniera sufficientemente chiara – l’obiettivo è un altro, non è dare informazioni corrette e veritiere ma generare contenuti verosimili o fare altro genere di gestione, manipolazione, generazione di contenuti, fatte salve le funzioni di ricerca sul web che vengono sviluppate da alcuni produttori. Non stiamo parlando di enciclopedie né di giornali o di motori di ricerca, anche se in molti li stanno utilizzando in questo modo. Se chiedessi a Google di deindicizzare un articolo di un giornale che parla di me come garante della privacy”, ha proseguito, “probabilmente Google respingerebbe la richiesta perché l’interesse pubblico è prevalente rispetto all’interesse del singolo. Anche se portassi, in un secondo momento, la richiesta da un giudice, verosimilmente mi direbbero la stessa cosa. Inoltre, Google deindicizzerebbe una pagina, una URL con contesto, prevenendo il rischio di bloccare anche eventuali omonimi”.
Ma quindi la OpenAi potrebbe rifiutarsi di bloccare un nome? “In linea di principio sì”, dice Scorza, “potrebbe fare una valutazione rispetto all’interesse prevalente. Ma non sono convinto che quel che è vero per un giornale o per un motore di ricerca sia vero per un servizio generativo che dichiara di poter commettere errori e di non essere una fonte di informazione. Il rischio che io vedo è che continuiamo a educare il pubblico a una confusione dei piani, ad aspettarsi da servizi come ChatGpt che facciano informazione attendibile e che ci sia verso gli llm un’aspettativa di verità e attendibilità”.
D’altra parte, però, i blocchi potrebbero far funzionare male gli llm così come sono stati progettati. “Questo anche perché il mio nome e cognome per ChatGpt non sono dati personali”, conclude Scorza.
In effetti sono parole, token che la macchina prende e rielabora e associa in maniere probabilistiche perché le ha viste associate in quel determinato modo moltissime volte. In queste associazioni le macchine possono sbagliare. Come al solito, quando si tratta di ia, le cose non sono mai semplici come sembra.
Le liste dei nomi proibiti hanno sempre i loro problemi, così come le tecnologie che usiamo e che non dovremmo mai subire.
Questo testo è tratto dalla newsletter Artificiale.
Iscriviti a Artificiale |
Cosa succede nel mondo dell’intelligenza artificiale. Ogni venerdì, a cura di Alberto Puliafito.
|
Iscriviti |
Iscriviti a Artificiale
|
Cosa succede nel mondo dell’intelligenza artificiale. Ogni venerdì, a cura di Alberto Puliafito.
|
Iscriviti |