L’intelligenza artificiale apre l’Archivio segreto vaticano
L’Archivio segreto vaticano è uno degli archivi storici più vasti del mondo. Situato all’interno delle mura vaticane, accanto alla biblioteca Apostolica e poco più a nord della Cappella Sistina, l’archivio ospita circa 85 chilometri di scaffali contenenti documenti che risalgono a oltre dodici secoli fa. Comprende gemme come la bolla papale di scomunica di Martin Lutero e la richiesta d’aiuto che Maria Stuarda inviò a papa Sisto V prima di essere giustiziata. Per dimensioni e ricchezza, è un tesoro davvero inestimabile.
L’archivio è accessibile solo agli studiosi in grado di consultarne la documentazione spesso scritta in maniera difficilmente leggibile. Del contenuto di questi 85 chilometri, solo una piccola parte è stata scansionata e trasformata in formato digitale. Ancora meno pagine sono state trascritte in testo informatico e rese disponibili per la ricerca. Per poter consultare il resto occorre accedere all’Archivio segreto vaticano, sobbarcarsi il viaggio fino a Roma e sfogliare ogni singola pagina a mano.
Un nuovo progetto di ricerca, In Codice Ratio, potrebbe risolvere alcuni di questi problemi. In Codice Ratio adotta tecniche di analisi delle immagini digitali e d’intelligenza artificiale e software di riconoscimento ottico dei caratteri (ocr) per analizzare questi testi complessi e spesso di difficile lettura e rendere disponibile per la prima volta la loro trascrizione. Se dovesse funzionare, la tecnologia potrebbe aprire la strada alla trascrizione di molti altri documenti presenti negli archivi storici di tutto il mondo.
Per istruire il software i ricercatori si sono rivolti a una fonte d’aiuto insolita: gli studenti liceali
Sono anni che l’ocr viene usato per scansionare libri e altri materiali stampati, ma non è adatto per i materiali presenti nell’Archivio segreto vaticano. L’ocr tradizionale scompone le parole in una serie di immagini, ciascuna composta da un singolo carattere, prendendo in esame gli spazi tra le diverse lettere. Poi confronta ogni immagine con un archivio di caratteri che ha in memoria. Dopo aver deciso quale lettera coincide meglio con l’immagine, il software traduce il carattere in codice informatico (ascii), rendendo così fruibile il testo.
Questo approccio, in realtà, funziona solo sui testi stampati. È inefficace per tutto quanto sia stato scritto a mano, come la maggioranza degli antichi documenti manoscritti. Ecco un esempio dell’inizio del tredicesimo secolo, scritto nella cosiddetta scrittura carolina minuscola, che si presenta come un misto di calligrafia e corsivo:
Il problema principale in questo esempio è la mancanza di spazio tra le lettere (la cosiddetta scomposizione sporca). L’ocr non è in grado di capire dove finisca una lettera e dove ne cominci un’altra. Il risultato è uno stallo informatico, noto come paradosso di Sayre: il software ocr ha bisogno di scomporre una parola in singole lettere prima di poterle riconoscere, ma nei testi manoscritti, dove i caratteri sono collegati tra loro, il software ha bisogno di riconoscere le lettere per poterle segmentare. È un serpente che si morde la coda.
Alcuni informatici hanno cercato di risolvere il problema sviluppando tecniche che riconoscono le parole intere invece delle lettere. L’approccio funziona bene dal punto di vista tecnologico (ai computer non interessa se stanno analizzando lettere o parole), ma per applicarlo è necessario avere una enorme mole di dati. Invece di poche decine di lettere dell’alfabeto, questo metodo deve riconoscere immagini di migliaia e migliaia di parole. Per produrle servirebbe un esercito di esperti paleografi che dovrebbero analizzare un numero enorme di documenti per associare a centinaia di migliaia di immagini di parole la trascrizione corrispondente. Per ogni parola servirebbero infatti varie immagini, per tenere conto delle diverse grafie, della scarsa luce o di altre variabili.
In Codice Ratio aggira questi problemi grazie a un nuovo approccio al riconoscimento ottico di testi manoscritti. I cinque ricercatori che coordinano il progetto – Paolo Merialdo, Donatella Firmani, Elena Nieddu, Serena Ammirati dell’Università di Roma Tre, e Marco Maiorino dell’Archivio segreto vaticano – risolvono il paradosso di Sayre grazie a un’innovazione chiamata scomposizione a mosaico. Questo processo, come ha recentemente spiegato l’équipe, separa le parole non in lettere ma in segmenti più simili a tratti singoli di penna. L’ocr lo fa dividendo ogni parola in una serie di strisce verticali e orizzontali, cercando le porzioni più sottili, in cui si trova meno inchiostro (o meglio meno pixel). Il software poi incide le lettere in corrispondenza di queste giunzioni. Il risultato finale è una serie di tessere di mosaico.
Di per sé, le tessere di mosaico non sono particolarmente utili. Ma il software le può ricombinare in vari modi. Successivamente si preoccupa di capire quali gruppi di segni rappresentano delle vere lettere e quali no.
Per istruire il software i ricercatori si sono rivolti a una fonte d’aiuto insolita: gli studenti liceali. L’équipe ha arruolato studenti di 24 scuole italiane per costruire una base di dati che memorizza migliaia di esempi di caratteri estrapolati dai manoscritti. Gli studenti accedevano a un’applicazione web, che presenta una schermata divisa in tre sezioni:
La banda verde in alto contiene esempi “positivi” di una lettera specifica (la g in questo caso) provenienti da un testo medievale in latino. La banda rossa contiene esempi ingannevoli della stessa lettera che nel progetto In Codice Ratio vengono chiamati “falsi amici”. La griglia in basso è la parte essenziale del programma. Ognuna delle immagini al suo interno è composta da una serie di tessere del mosaico che il software ocr ha composto, ipotizzando una lettera plausibile. Agli studenti veniva chiesto di valutare queste lettere, indicando quali corrispondono alla lettera in esame (la g, nell’esempio). In pratica, gli studenti dovevano confrontare ogni immagine nella griglia con lettere degli esempi positivi nella barra verde, spuntando la casella dove trovavano una corrispondenza.
Immagine dopo immagine, clic dopo clic, gli studenti hanno insegnato al software la forma di ciascuno dei 22 caratteri dell’alfabeto latino medievale (dalla a alla x, più alcune forme alternative di s e di d).
Per mettere a punto tutto il procedimento, il progetto si è dovuto avvalere dell’aiuto di esperti paleografi per la scelta degli esempi positivi e dei falsi amici. Agli studenti non erano richieste competenze di paleografia: dovevano solo trovare corrispondenze tra i diversi motivi visivi. Inizialmente, “l’idea di coinvolgere dei liceali è stata considerata assurda”, spiega Merialdo, il responsabile del progetto In Codice Ratio. “Ma ora la macchina sta imparando grazie ai loro sforzi. Mi piace osservare come un piccolo impegno di molte persone possa contribuire alla soluzione di un problema complesso”.
Terminato il compito degli studenti, dopo aver approvato un numero sufficiente di esempi, il software ha cominciato ad assemblare porzioni di mosaico in modo indipendente, giudicando in autonomia quali lettere fossero presenti. Tuttavia assemblare tessere di mosaico, formando lettere plausibili, non è sufficiente. Il sistema ha bisogno di strumenti supplementari per sciogliere i nodi dei testi manoscritti. Immaginate di leggere una lettera e di trovarvi di fronte a questa frase:
C’è scritto clear (chiaro) oppure dear (caro)? Difficile dirlo, visto che i tratti che compongono la d di dear oppure il cl di clear sono praticamente gli stessi. Il sistema deve affrontare lo stesso problema, soprattutto per un carattere altamente stilizzato come la scrittura carolina minuscola. Provate a decifrare questa parola:
Emergono diverse ipotesi: aimo, amio, aniio, aiino, e persino aiiiio, che sembra un grido uscito da un cartone animato. La parola esatta è anno. Il software ha indovinato la a e la o. Ma le quattro colonne parallele in mezzo lo hanno mandato in tilt.
Per risolvere il problema, l’équipe di In Codice Ratio ha dovuto insegnare al software un po’ di buon senso, ovvero d’intelligenza pratica. A partire da un corpus di 1,5 milioni di testi latini, sono state calcolate le frequenze delle sequenze composte da due, tre, quattro, cinque lettere. Il software usa queste statistiche per assegnare delle probabilità alle diverse ipotesi di parole che emergono dal riconoscimento dei singoli caratteri. In questo modo il sistema ha imparato che la combinazione nn è molto più frequente delle altre (è più frequente di iiii, di nii, eccetera).
Messa a punto questa soluzione, il sistema era finalmente pronto a leggere alcuni testi da solo. L’équipe ha deciso di dargli in pasto dei documenti dei registri vaticani, una sottosezione di oltre 18mila pagine dell’Archivio segreto vaticano contenenti lettere a sovrani europei, sentenze su questioni legali e altre corrispondenze.
Con buona pace di Dan Brown l’aggettivo “segreto” dell’Archivio vaticano non si riferisce a niente di clandestino
I primi tentativi hanno dato esiti alterni. Nei testi trascritti finora, almeno un terzo delle parole conteneva uno o più refusi. Se stoste circanda do leggere queste rlghe in un lbro, sraebbe davvero malto fastidiiso (gli errori più comuni erano la confusione tra i caratteri m, n e i e tra altri due caratteri spesso confusi tra loro: la lettera f e una forma allungata e arcaica di s). Tuttavia il software ha indovinato il 96 per cento delle lettere manoscritte. Anche delle “trascrizioni imperfette possono fornire informazioni generali e di contesto a proposito del manoscritto analizzato”, che si rivelano utili, sostiene Merialdo.
Come tutte le intelligenze artificiali, il software migliorerà nel tempo, man mano che avrà processato un numero maggiore di testi. Fatto ancor più esaltante, la strategia generale di In Codice Ratio, la frammentazione a mosaico unita a un addestramento del software tramite crowdsourcing, potrebbe facilmente essere adattato alla lettura di testi in altre lingue e altre scritture. La cosa potrebbe potenzialmente fare per i documenti manoscritti quello che Google books ha fatto per i testi a stampa: rendere disponibili lettere, riviste, diari e altri testi stampati ai ricercatori di tutto il mondo, semplificando sia la lettura di questi documenti sia la ricerca di materiale rilevante.
Ma affidarsi all’intelligenza artificiale ha i suoi limiti, secondo Rega Wood, storica della filosofia e paleografa (esperta di scritture antiche) presso l’università dell’Indiana, negli Stati Uniti. Sarà “problematico per i manoscritti che non sono scritti in maniera professionale ma copiati da non professionisti”, spiega, perché la scrittura a mano e la forma delle lettere varierà molto di più in questi documenti, rendendo più difficile l’apprendimento da parte dell’ocr. Inoltre, per quei casi dove esistono solo dei campioni limitati di materiale con cui lavorare, “è non solo più preciso, ma anche altrettanto veloce, effettuare trascrizioni senza ricorrere a una simile tecnologia”.
Con buona pace di Dan Brown l’aggettivo “segreto” dell’Archivio vaticano non si riferisce a niente di clandestino o cospiratorio. Significa semplicemente che gli archivi sono di proprietà personale del papa. “Archivio privato” sarebbe forse stata una migliore traduzione del termine originale latino Archivum secretum. Eppure, fino alla fine dell’ottocento, l’Archivio rimase davvero segreto per buona parte del mondo, tenuto sotto chiave e perlopiù inaccessibile. Oggi è frequentato da oltre 1.200 ricercatori di ogni paese e credo religioso: un numero discreto, ma pur sempre limitato. “È straordinario per noi riportare in vita questi manoscritti”, dice Merialdo, “rendendone la comprensione possibile per tutti”.
(Traduzione di Federico Ferrone)
Questo articolo è uscito su The Atlantic. Leggi la versione originale. © 2018. Tutti i diritti riservati. Distribuito da Tribune Content Agency.
Internazionale ringrazia per la consulenza Paolo Merialdo e tutto il team che ha sviluppato il progetto In Codice Ratio.