La storia delle intelligenze artificiali generative inizia negli anni ‘50 del secolo scorso quando, negli Stati Uniti, alcuni informatici iniziano a esplorare l’idea di poter ottenere frasi generate da una macchina. Nel 1967, all’Mit di Boston, l’informatico Joseph Weizenbaum sviluppa Eliza, un “programma per lo studio del linguaggio naturale di comunicazione tra uomo e macchina”. Eliza impersona, negli intenti del programmatore, uno psicanalista di scuola rogersiana. In questo tipo di psicanalisi la persona è al centro del percorso terapeutico: il terapeuta non dà pareri ma si pone in maniera paritaria e empatica. Eliza si può provare ancora oggi online in lingua inglese: non sembra essere affatto empatica, ma per l’epoca risulta ancora impressionante. Secondo aneddoti diffusi dallo stesso Weizenbaum – uno di questi ha come protagonista stereotipata la segretaria di Weizenbaum –, alcune persone avrebbero avuto l’illusione di parlare davvero con un essere umano. Non ci sono prove di questo e si tratta, probabilmente, di un’esagerazione: alla fine degli anni ‘60 non era affatto usuale avere un computer su cui far girare Eliza a portata di mano, il software non era certo diventato un prodotto di massa e bastano pochi secondi di conversazione per accorgersi che qualcosa non va.

Una mia conversazione con Eliza. Il chatbot non si mostra particolarmente empatico e non riesce a capire che la parola “Alberto” è il mio nome.

Ben presto, comunque, diventa chiaro che, per migliorare queste macchine, occorre fornire loro l’accesso a un’enorme quantità di testo. Molti anni dopo, nel 2020, il fisico teorico Jared Kaplan scrive in uno studio condotto con nove ricercatori della OpenAi – nel frattempo già diventata for profit –, che più dati si usano per addestrare i large language model più questi funzioneranno bene.

In un episodio di The Daily, il podcast quotidiano del New York Times, il giornalista Cade Metz individua proprio in quel momento il peccato originale delle intelligenze artificiali.

Nell’inchiesta condotta con altri quattro colleghi, Metz racconta che chi lavora nelle aziende che oggi competono per sviluppare ia sempre più sofisticate erano a conoscenza del problema di reperire dati di addestramento e così, una volta esaurito il materiale disponibile gratuitamente in luoghi digitali come Wikipedia, hanno iniziato a utilizzare per gli addestramenti materiale di ogni genere – testi, foto, milioni di video su YouTube –, anche tutelato dal copyright, anche modificando in corso d’opera le proprie politiche e regole e chiudendo un occhio sulle rispettive pratiche. Come se non bastasse, secondo una stima della Epoch.ai, un gruppo di ricercatori che studiano l’evoluzione delle intelligenze artificiali, per la fine del 2024 tutti i testi di alta qualità generati da esseri umani saranno già stati usati tutti per addestrare le macchine generative.

La domanda cruciale è: le aziende come la OpenAi, la Alphabet, la Meta, potevano utilizzare tutto quel che riuscivano a reperire online per addestrare una macchina? A seconda di come la si pensa la risposta varia, ma non c’è certezza in merito e tutto dipende, almeno per il momento, dagli esiti delle cause in corso negli Stati Uniti.

Molte ricerche sul tema vengono condotte proprio da dipendenti delle grandi aziende, ma anche il New York Times non è un’azienda neutrale in questa storia: ha in corso una causa contro la OpenAi, accusata proprio di violazione del copyright. Michael Barbaro, il conduttore del podcast, ribadisce che “la causa è stata intentata dal lato commerciale del New York Times da persone che non sono coinvolte nel lavoro d’inchiesta”.

Non si tratta di mettere in dubbio l’indipendenza e il rigore morale dell’inchiesta giornalistica o della redazione. Però potremmo provare ad allargare la prospettiva, tornare indietro alle origini di questa storia che ha più di settant’anni.

Sappiamo che le aziende della Silicon Valley agiscono sapendo che ci sono aree grigie, si muovono spesso secondo una logica che prevede di fare comunque le cose, anche quelle eticamente o legalmente dubbie, e poi vedere come va a finire. Però sappiamo anche che le ia generative potrebbero farci bene. Non perché abbiamo bisogno di conversare con un chatbot, non perché la conversazione con Eliza era deludente. Ma perché possiamo applicarle in medicina, nella ricerca, per liberare il nostro tempo da lavori ripetitivi o pericolosi, per migliorare quello che sappiamo fare come esseri umani.

Siamo sicuri, allora, di aver individuato correttamente il peccato originale nel momento in cui si inizia l’addestramento delle ia con materiale protetto da copyright? E se il peccato originale fosse, invece, aver deciso che il meglio della produzione culturale e scientifica dell’umanità vada messo dietro al recinto del copyright? Se vogliamo che queste macchine ci servano al meglio dovremmo pretendere che imparino dal nostro meglio. E, ancora una volta, che siano accessibili e aperte.

Questo testo è tratto dalla newsletter Artificiale.

Iscriviti a
Artificiale
Cosa succede nel mondo dell’intelligenza artificiale. Ogni venerdì, a cura di Alberto Puliafito.
Iscriviti
Iscriviti a
Artificiale
Cosa succede nel mondo dell’intelligenza artificiale. Ogni venerdì, a cura di Alberto Puliafito.
Iscriviti

Internazionale pubblica ogni settimana una pagina di lettere. Ci piacerebbe sapere cosa pensi di questo articolo. Scrivici a: posta@internazionale.it