Tecnologia

Le intelligenze artificiali sanno superare i test d’intelligenza?

Alberto Puliafito, giornalista

24 settembre 2024

OsakaWayne Studios/Getty Images

Il concetto di quoziente d’intelligenza per gli esseri umani nasce ufficialmente nel 1912, introdotto dallo psicologo tedesco William Stern. La definizione che ne dà il dizionario della lingua italiana De Mauro è: “indice dello sviluppo mentale, dato dal rapporto fra età mentale, determinata mediante particolari test psicologici, ed età cronologica”. Si abbrevia con la sigla qi (iq in inglese).

Le matrici di Raven sono uno dei test psicologici più famosi per la misurazione del qi. Funzionano così: chi si sottopone al test deve rispondere, in un tempo predefinito, a una serie di quesiti a scelta multipla. I quesiti non sono verbali ma visivi. Ogni domanda, infatti, è come una tabella 3x3. Le prime otto caselle della tabella contengono dei simboli, l’ultima casella in basso a destra è vuota. Bisogna rispondere scegliendo una fra sei possibili opzioni. La risposta corretta è univoca ed è quella che completa la sequenza secondo un criterio logico che unisce i primi otto simboli con il nono. La prima tabella dovrebbe essere molto facile per tutti, poi la difficoltà cresce. Il punteggio che si ottiene viene misurato secondo una scala. La più utilizzata è la scala Cattell. 100 è il valore della media. Chi ottiene un punteggio superiore a 100 ha, dunque, un punteggio sopra la media.

John Raven, lo psicologo che ha creato queste matrici, e Raymond Cattell, lo psicologo che ha inventato la scala di misurazione, hanno cercato di lavorare in modo che i test per il qi fossero culture fair. Cioè, per renderli indipendenti dalle influenze culturali. In realtà non lo sono affatto: è vero che, essendo domande visive e non verbali, le matrici di Raven si liberano del problema linguistico, ma simboli e disegni possono significare cose diverse in culture diverse e questo può influenzare le risposte. Poi è provato che i risultati che si ottengono sono associati a vari fattori ambientali, fra cui lo stato socioeconomico di provenienza, la nutrizione, l’ambiente della crescita e dello sviluppo di una persona. In altre parole: se sei ricca e hai accesso a ottime risorse materiali ed educative, se vivi in un ambiente sereno e stimolante, se parti da una situazione di privilegio è più probabile che i risultati dei tuoi test siano migliori e dunque che il tuo qi risulti più alto.

Non solo: i risultati di un test variano a seconda dei momenti. Può essere che una persona ottenga un punteggio di 95 facendo il test un giorno, risultando sotto la media. Poi, però, può ripetere il test in un altro momento e ottenere 110. Questo perché tutto ciò che riguarda le misurazioni di capacità umane – fisiche o intellettive che siano – dipende fortemente anche da come stiamo in quel preciso momento. Peraltro, una persona potrebbe imparare a fare quel tipo di test, allenandosi, e dunque migliorare le proprie prestazioni col tempo.

Due domande dal test Mensa Norvegia, tipo matrici di Raven.

Infine, non sappiamo nemmeno dire esattamente di quale intelligenza stiamo parlando visto che, proprio come per le intelligenze artificiali, anche per quelle umane faremmo meglio a usare il plurale. Probabilmente le matrici di Raven misurano la nostra capacità di elaborazione e immaginazione visiva e spaziale. Non misurano di certo l’intelligenza verbale o matematica, né quella sociale o emotiva, né la creatività.

Come se non bastasse, a dispetto delle visioni pessimistiche rispetto all’umanità, per tutto il ventesimo secolo abbiamo assistito a un aumento dei risultati di misurazione qi: si chiama Flynn effect, dal nome del ricercatore che ha studiato il fenomeno. Quindi, per tutto il novecento saremmo diventati più intelligenti. Poi, però, ci sarebbe stato un declino nei risultati delle misurazioni, anche in paesi molto sviluppati. Quindi, secondo la medesima logica, staremmo diventando più stupidi.

Le cose sono più complicate di così: magari alcuni fattori che determinano i risultati che otteniamo in quei test sono prima cresciuti e poi diminuiti. Magari semplicemente sono aumentati e poi diminuiti i valori di quelle misurazioni, oppure vengono somministrati molti più test e ci sovrastimavamo in quei compiti. Tutto questo non ci autorizza a pensare né che eravamo diventati più intelligenti prima né che ora lo siamo meno. La verità è che non lo sappiamo con certezza. E anche se vorremmo tanto dare la colpa di questa ipotetica crescente stupidità intorno a noi ai social e al digitale, dobbiamo resistere alla tentazione perché sarebbe una semplificazione ingenerosa nei confronti di noi esseri umani.

Insomma, a dispetto di tutto quel che ci raccontiamo per marcare la differenza fra gli umani e le ia, facciamo fatica addirittura a definire – figuriamoci a misurare – l’intelligenza umana nelle sue sfaccettature.

Leggi anche

Intelligenza incontrollabile

Questa lunga premessa serve per farci venire un po’ di dubbi ma anche per arrivare alla domanda di una lettrice di Artificiale. Giuliana ha chiesto: “Come risponde a un test per il qi un’intelligenza artificiale?”.

Prima di tutto, con tutti i limiti che abbiamo visto, i test per il qi sono pensati per misurare alcuni aspetti dell’intelligenza umana. Quindi potrebbero non essere adatti a misurare le intelligenze aliene.

Qualcuno, però, si è preso la briga di fare questa analisi e di valutare come rispondono i large language model a test simili alle matrici di Raven: si tratta di Maxim Lott, giornalista ed esperto di dati, matematica ed economia. Una volta alla settimana, Lott ha somministrato a varie ia un test del Mensa Norvegia. Il Mensa è un’associazione internazionale per “persone intelligenti”: ci si può iscrivere solo se si può dimostrare di avere un qi superiore a 148 secondo la scala Cattell (significa rientrare, più o meno, nel 98 percentile della popolazione mondiale). Se vuoi cimentarti col test, lo trovi online.

Per più di un anno i large language model conversazionali (ChatGpt, Claude, Gemini e via dicendo) hanno risposto in maniera approssimativa a questi test e hanno ottenuto punteggi molto al di sotto della media umana. Questo può dipendere da vari motivi, a partire dal fatto che la capacità visiva dei large language model non è ancora sviluppata come quella testuale.

“A febbraio”, scrive Maxim Lott, “dopo i miei primi test ero diventato indifferente ai progressi dell’intelligenza artificiale, perché da allora il qi non aveva registrato alcun miglioramento”.

A marzo del 2024, però, per la prima volta Claude ha superato la media umana, totalizzando un punteggio di 101.

Poi è arrivato o1-preview, il nuovo modello di ChatGpt reso disponibile dalla OpenAi a metà settembre 2024: o1-preview ha risposto correttamente a 25 domande su 35 del test del Mensa Norvegia, raggiungendo un quoziente intellettivo di 120 secondo la scala Cattell e superando di gran lunga tutti gli avversari. Seguendo questo link puoi vedere le risposte di tutti i principali modelli llm e confrontarle. Il sito prova a vedere come rispondono una volta a settimana, per registrare variazioni.

Uno dei motivi di questo miglioramento è sicuramente il fatto che o1-preview è programmato per dedicare più tempo alle sue operazioni, utilizzando la tecnica della chain-of-thought, cioè dei pensieri concatenati. Significa che spezza le istruzioni e l’esecuzione del compito in più parti.

Qualcuno ha ipotizzato che o1-preview risponda correttamente perché i risultati del test sono dentro al suo set di addestramento. Di certo queste macchine si sono imbattute nei risultati, navigando fra i contenuti di internet. Ma non basta, perché in realtà, un esperimento indipendente fatto da Lott insieme a un socio del Mensa ha dimostrato che la macchina risponde molto bene anche a test che non esistevano prima, collocandosi intorno al 100 della scala Cattel, con prestazioni molto migliori dei modelli concorrenti. È più probabile che o1-preview abbia navigato metodologie di soluzione o video di persone che spiegano i ragionamenti da fare per risolvere le matrici di Raven.

Insomma, la risposta semplice alla domanda di Giuliana, allora, è che o1-preview, il modello più avanzato di intelligenza artificiale che abbiamo visto fino a questo momento, a settembre del 2024 ha un qi secondo la scala Cattel che oscilla fra i 100 e i 120.

La risposta complessa è che non sappiamo dire esattamente cosa significhi questo.

Tecnologia

Fornisci il consenso ai cookie

Le intelligenze artificiali sanno superare i test d’intelligenza?