Finora il progetto di Google e Science ha permesso la digitalizzazione di quindici milioni di libri. Si tratta del 12 per cento dei libri pubblicati dal 1500. Di questi, quattro milioni sono stati sottoposti a un trattamento che ha consentito il riconoscimento di ogni parola.
Il risultato dell’operazione è un corpus di oltre cinquecento miliardi di parole (361 miliardi in inglese, 45 in francese, 45 in spagnolo, 37 in tedesco, 13 in cinese, 35 in russo e due in ebraico). Manca l’italiano, ma nel marzo del 2010 Google ha siglato un accordo per la digitalizzazione di circa un milione di volumi delle biblioteche nazionali di Roma e Firenze.
L’iniziativa ha molti ambiti di applicazione: permette di studiare i tempi d’ingresso e la diffusione nella letteratura di ogni genere di parola e fornisce interessanti spunti di riflessione e di analisi sulla nostra società.
L’uso delle parole, infatti, rispecchia l’attenzione e l’urgenza che un determinato problema riveste in un dato momento storico. Come nota Alessandro Lanza su lavoce.info, l’analisi delle frequenze con cui certi termini sono stati usati fornirà informazioni molto importanti per gli studi sul linguaggio.
Internazionale, numero 884, 11 febbraio 2011
Internazionale pubblica ogni settimana una pagina di lettere. Ci piacerebbe sapere cosa pensi di questo articolo. Scrivici a: posta@internazionale.it