“Se lo sviluppo delle intelligenze artificiali si fermasse questa settimana”, scrive Ethan Mollick, autore del libro Co-intelligence, “ci vorrebbero dai cinque ai dieci anni per assorbire l’impatto dei modelli attuali sull’istruzione, la cultura, la sanità e il mondo degli affari. Ma questa settimana è apparso evidente che lo sviluppo non si fermerà”.
Poi aggiunge: “Per essere chiari, non tutti gli effetti saranno buoni, alcuni saranno cattivi e altri saranno semplicemente molto strani. Non abbiamo nemmeno iniziato a confrontarci con le conseguenze a lungo termine”.
Mollick, professore associato alla Wharton school (Pennsylvania, Stati Uniti), è una delle voci più attive nel mondo delle intelligenze artificiali, autore, fra l’altro, della newsletter One useful thing che esplora gli impatti delle ia sul lavoro, sulla scuola e sulla vita tutta. A volte i suoi scritti possono sembrare eccessivamente ottimistici o assertivi – come in questo caso – e non c’è dubbio che sia una voce entusiasta nel mondo della tecnologia. Tuttavia la sua visione è molto lucida, informata e frutto di conoscenza approfondita, ricerca accademica e applicativa e merita senz’altro di essere inserita in una buona dieta informativa a proposito delle ia.
La settimana a cui Mollick fa riferimento è questa, più o meno da venerdì 6 dicembre 2024: ci sono stati parecchi annunci e novità nel mondo delle intelligenze artificiali. In particolare, stiamo assistendo a uno scontro a distanza fra Google e la OpenAi.
Sundar Pichai, amministratore delegato della Alphabet, casa madre di Google, aveva appena dichiarato che lo sviluppo delle ia stava rallentando, ma poi la DeepMind – divisione di Google dedicata alle ia – ha annunciato il rilascio di Gemini 2.0, la nuova versione del proprio large language model.
Il modello ha rapidamente scalato la classifica lmarena che su Artificiale usiamo spesso come parametro di confronto. La sua versione sperimentale, che si può usare gratuitamente, propone una serie di innovazioni che richiedono tempo per i test. Si va dalla conversazione diretta in video-streaming con il modello alla possibilità di condividere il proprio schermo con Gemini, dall’integrazione con le funzioni di ricerca a vari usi che assistono nello sviluppo di codice, nell’integrazione con le mappe satellitari e così via (ne ho riassunti alcuni qui).
È vero che è fondamentale resistere all’effetto-wow – alcune funzioni sono decisamente a livello sperimentale e a volte non funzionano ancora come ci aspetteremmo – ma c’è un salto notevole rispetto a quanto visto fin qui su Gemini e si intravedono potenzialità che richiederanno davvero molto tempo per essere esplorate.
Contemporaneamente, la OpenAi ha aperto il proprio calendario dell’avvento di annunci e novità, proponendo funzioni più o meno interessanti e utili, con un bilanciamento fra quelle pop e quelle pensate per un pubblico più tecnologico. Si va dalla voce di Babbo Natale – un classico per le aziende della Silicon valley – al rilascio pubblico di Sora, l’ia generativa da testo a video. Sora non è ancora disponibile per i paesi dell’Unione europea e di recente è stata al centro delle proteste di alcuni artisti che l’avevano ricevuta in anteprima e avevano potuto usarla gratuitamente per mesi. C’è la possibilità di far interagire ChatGpt con alcune applicazioni del proprio computer, come gli editor di testo o di programmazione, e si prosegue nella direzione della personalizzazione degli assistenti di ia con una tecnica che si chiama reinforcement fine-tuning (ho preparato una guida per le varie opzioni di personalizzazione).
C’è la versione definitiva del modello o1 che, se si vuole usare senza limiti, ha un costo di 200 euro al mese. Anche ChatGpt proporrà la possibilità di interagire attraverso video in tempo reale e di condividere il proprio schermo del computer. Gli annunci della OpenAi proseguiranno per tutta la settimana che verrà.
La quantità di applicazioni possibili è difficile da elencare perché queste tecnologie non sono pensate e progettate a monte per un uso specifico. Proviamo a fare un confronto: un programma di video ci aiuta a scrivere, impaginare, editare testo. Ci aspettiamo che ci permetta di aggiungere immagini, di mettere le parole in grassetto o in corsivo, di cambiare il carattere, scrivere titoli di paragrafo e note a piè di pagina: per quanto si evolvano le sue funzioni, è ben chiaro da subito a cosa serve e cosa potrà fare.
Invece, ilarge language model non hanno dei casi d’uso predefiniti. Non sono stati progettati per un unico scopo, più o meno vasto. Sono contenitori di compiti potenziali, sono macchine adattabili. Questo rende paradossalmente più difficile usarle per ciò di cui si ha davvero bisogno, perché occorre, prima di tutto, uno sforzo di immaginazione: la capacità di scrivere nel dettaglio gli usi possibili. Poi la capacità di capire se quegli usi sono davvero utili, di fare dei test, di individuare reali risparmi di tempo e convenienze.
Si è detto più volte che per lavorare con le ia è necessario prevedere la supervisione umana (human in the loop) ma il problema è che, per assorbire gli effetti di cui parla Mollick, ci vuole una supervisione umana esperta (expert in the loop): servono figure che possano fare da interfaccia fra il modo in cui funzionano queste macchie e le loro applicazioni. Nel frattempo lo sviluppo va avanti veloce e chi ha meno mezzi o possibilità di accesso alle tecnologie resta indietro.
Questo testo è tratto dalla newsletter Artificiale.
Iscriviti a Artificiale |
Cosa succede nel mondo dell’intelligenza artificiale. Ogni venerdì, a cura di Alberto Puliafito.
|
Iscriviti |
Iscriviti a Artificiale
|
Cosa succede nel mondo dell’intelligenza artificiale. Ogni venerdì, a cura di Alberto Puliafito.
|
Iscriviti |
Internazionale pubblica ogni settimana una pagina di lettere. Ci piacerebbe sapere cosa pensi di questo articolo. Scrivici a: posta@internazionale.it