Un’intelligenza artificiale sbaglia questo test, e tu?

Il 2024 delle intelligenze artificiali si è concluso con molti annunci e rilasci di nuovi strumenti da parte delle principali aziende impegnate nello sviluppo di queste tecnologie. Come da manuale delle trovate di marketing di Sam Altman, la OpenAi si è riservata il finale a effetto. L’azienda, che aveva addirittura organizzato un calendario dell’avvento per svelare una alla volta le proprie novità, ha anticipato o3, il suo nuovo modello.

Leggi anche

L’intelligenza artificiale non è tutto

o3 non è ancora disponibile al pubblico: solo chi fa ricerca nell’ambito della sicurezza dei sistemi di ia può ottenere un accesso anticipato.

Sappiamo poco di o3. Da quel che si può leggere online, si basa ancora sull’architettura degli altri modelli della OpenAi. Quel che lo rende interessante, però, è il fatto che è stato valutato da un progetto che si chiama Arc prize. L’Arc prize è’un premio da un milione di dollari riservato a chiunque riesca a far risolvere ai modelli linguistici alcuni test chiamati Arc-agi che sono particolarmente ostici per le macchine.

I test sono fatti così.

Test 1. Questo è un esempio di test dell’Arc prize. Puoi provare a risolverne alcuni qui. Se clicchi qui trovi la soluzione.

Ci sono coppie di matrici di varie dimensioni. Ciascuna matrice è composta da quadratini neri e contiene dei quadratini colorati che formano delle figure. La matrice di sinistra della coppia, quella chiamata input, è il dato di partenza. La matrice di output corrispondente, quella che si vede a destra, dopo la freccetta, è il dato elaborato secondo una certa regola. Poi c’è un’ultima coppia di matrici: quella di input contiene un nuovo dato e quella di output è vuota. Chi si sottopone al test deve dedurre la regola di trasformazione a partire da alcune coppie input-output e disegnare la soluzione nella matrice vuota.

Per esempio, se guardiamo la figura che ho chiamato Test 1, l’input 1 è una matrice quadrata da sette quadratini nero di lato. Contiene due figure azzurre, composte da tre quadratini. Le due figure hanno la forma di una lettera “L” con i due segmenti di lunghezza uguale. L’output 1 corrispondente è una trasformazione semplice delle due figure: a ciascuna viene aggiunto un quadratino blu, che le fa diventare due quadrati.

Probabilmente abbiamo già individuato la regola di trasformazione, ma abbiamo bisogno di un’ulteriore conferma. In effetti, l’input 2 e il suo corrispondente output seguono la medesima regola: le tre “L” azzurre si trasformano in tre quadrati con l’aggiunta di un quadratino blu.

A questo punto siamo pronti per la soluzione (che ho messo qui per evitare spoiler).

Cos’hanno di difficile questi test? Richiedono capacità di comprensione del contesto, di deduzione e di generalizzazione e poi di applicazione della generalizzazione a un nuovo caso mai visto prima. Sono abilità che riteniamo appannaggio degli esseri umani e, in effetti, per molte persone i test Arc-agi sono facili da risolvere. Ma altre li trovano semplicemente incomprensibili.

La logica è la stessa dei test per la misurazione di alcune componenti del quoziente intellettivo. Ci si può allenare e imparare a risolverli perché non sono test completamente indipendenti dalla propria cultura personale, ma danno comunque alcune informazioni sulle proprie capacità deduttive. E anche su quelle di un’intelligenza artificiale.

Test 2. Il modello o3 di ChatGpt non sa risolvere questo test. Tu sai trovare la risposta corretta?

Nel 2019 il Gpt-2 sbagliava tutte le risposte dell’Arc-agi. Anche il Gpt-3, nel 2020, sbagliava tutte le risposte. Nel 2023 il Gpt-4 ne indovinava il 2 per cento. Infine, il Gpt-4o reso pubblico nel 2024 arrivava al 5 per cento delle risposte corrette.

Poi è arrivato l’annuncio dell’o3: secondo il gruppo di lavoro del premio, questo modello ha ottenuto un risultato sorprendente, il migliore fra tutte le ia che sono state sottoposte al test, rispondendo correttamente al 75 per cento delle domande.

Il costo di calcolo per arrivare a questo risultato è molto elevato: parliamo di poco meno di diecimila dollari. Con un costo di calcolo superiore di circa 170 volte, il modello risponde correttamente all’85 per cento delle domande, la soglia per ottenere il premio. Solo che il premio prevede, appunto, che si rimanga al di sotto dei diecimila dollari di costo computazionale, per valutare anche l’efficienza di un modello.

Ci sono molti motivi per cui test come l’Arc-agi sono difficili per le macchine. Prima di tutto, gli llm faticano a estrarre regole generali da pochi dati di partenza. Poi faticano ad applicare le deduzioni a scenari mai visti prima. Inoltre, gli errori aumentano all’aumentare della dimensione delle matrici, probabilmente perché la mole di dati da elaborare diventa troppo complessa per una macchina: noi umani siamo aiutati dal fatto che vediamo le matrici. Le macchine non le vedono: devono costruirsi un modello per elaborarle. Ho preparato una spiegazione un po’ più tecnica qui.

Nel mondo delle ia i risultati dell’o3 sono stati presentati, un po’ pomposamente, come un nuovo passo verso la creazione di un’intelligenza artificiale generale. Non è quello che ci interessa qui. Ci interessa, piuttosto, osservare i miglioramenti delle prestazioni di questi strumenti.

E continuare a valutare in maniera critica il modo in cui vengono raccontati: senza la possibilità di accedere al modello o3, alle sue istruzioni interne, ai suoi dati di addestramento, infatti, non possiamo confermare in maniera indipendente risultati dichiarati dall’Arc prize e dobbiamo accontentarci di quello che affermano, delle dichiarazioni della OpenAi e dei pochi dati che hanno reso disponibili.

Questo testo è tratto dalla newsletter Artificiale.

Iscriviti a Artificiale	Cosa succede nel mondo dell’intelligenza artificiale. Ogni venerdì, a cura di Alberto Puliafito.
Vedi tutte le newsletter	Iscriviti

Iscriviti a

Artificiale

Cosa succede nel mondo dell’intelligenza artificiale. Ogni venerdì, a cura di Alberto Puliafito.

Vedi tutte le newsletter

Internazionale pubblica ogni settimana una pagina di lettere. Ci piacerebbe sapere cosa pensi di questo articolo. Scrivici a: posta@internazionale.it

Un’intelligenza artificiale sbaglia questo test, e tu?

Entra