Skip to main content
Icone del progresso
 

Gli albori della linguistica computazionale e la più grande opera a stampa mai prodotta al mondo

 

L’italiano Roberto Busa è considerato il pioniere della Linguistica Computazionale. Nel 1946 propose alla IBM l’idea rivoluzionaria di avvalersi dei computer per lo studio dei testi, in particolare dell’opera omnia di San Tommaso d’Aquino. La IBM decise di scommettere sul futuro.

L’italiano Roberto Busa – nato a Vicenza nel 1913 - è considerato il pioniere della Linguistica Computazionale, disciplina che si concentra sullo sviluppo di formalismi descrittivi del funzionamento del linguaggio naturale, tali che si possano trasformare in programmi eseguibili dai computer.

Nel 1946 Roberto Busa concepisce l’idea rivoluzionaria di avvalersi di macchine per lo studio dei testi, in particolare dell’opera omnia di San Tommaso d’Aquino e nel 1949, in occasione di un suo viaggio a New York, ha l’opportunità di presentare la sua idea a Thomas Watson Sr., fondatore e Presidente della IBM Corporation, il quale accetta di fornire sostegno alla sua attività. Sembra che Thomas Watson abbia detto:“ E va bene Padre, proveremo ad aiutarla. Ma ad una condizione: mi prometta che lei non cambierà IBM, acronimo di International Business Machines, in International Busa Machines”.

Inizia così una straordinaria avventura umana e scientifica allo stesso tempo, che coinvolge Padre Busa, la IBM in Italia e un’ampia comunità di esperti in tutto il mondo. L’obiettivo, estremamente innovativo ed ambizioso per l’epoca, è di fare una verifica integrale del lessico di San Tommaso per effettuare sulla base dei risultati di tale analisi una interpretazione autentica del pensiero di San Tommaso, ripulito così dalle innumerevoli incrostazioni dovute a secoli di analisi e commenti.

Il lavoro che precede la produzione dell’ “Index Thomisticus” iniziato nel 1949 può così avvalersi della tecnologia IBM, cioè la più avanzata disponibile: prima schede perforate, poi nastri magnetici sempre più capaci, concepiti per la classificazione applicata alle parole e non ai numeri.

Nel 1980 dopo un lavoro di trent'anni, vede la luce l'edizione a stampa in 56 volumi formato enciclopedia dell’ “Index Thomisticus”, imponente opera che raccoglie tutta la produzione di San Tommaso d’Aquino in formato leggibile e trattabile con i computer seguendo la metodologia inventata dallo stesso Padre Busa. Impressionanti i “numeri” dell’index Thomisticus: 11.000.000 di schede utilizzate, una per ogni parola analizzata (sono 100.000 quelle che compongono la Divina Commedia), più di 20.000.000 di righe, 70.000 pagine, 56 libri. Vale a dire 4 volte più vasta dell’enciclopedia italiana Treccani. Ad oggi, l’Index Thomisticus è la più vasta opera a stampa mai pubblicata al mondo.

Ripensando al contributo dato dall’opera di padre Busa, si può affermare che l’ “Index Thomisticus" e la scommessa di IBM sono stati determinanti nell’affermazione della Linguistica Computazionale come disciplina scientifica e campo di ricerca. I collaboratori di Padre Busa, fra tutti ricordiamo Antonio Zampolli, hanno dato vita in Italia ad una comunità di studiosi che gode ancora di un’eccellente reputazione a livello mondiale.

Nel Novembre del 2010 la storica collaborazione tra l’azienda e Padre Busa è stata ricordata in occasione della donazione da parte di Padre Busa della sua copia personale dei 56 volumi dell’Index Thomisticus ad IBM. “Una donazione – come ha detto il novantasettenne padre Busa – nata dal desiderio di mettere a disposizione dei ricercatori e di trasmettere alle giovani generazioni materiale che documenta il costituirsi di un’area disciplinare, la linguistica computazionale, per la fondazione della quale molto ho lavorato”.

La IBM in italia ha mantenuto nel tempo un ruolo significativo in quet’area, sia come partner di alcuni dei più innovativi progetti di ricerca nel campo della Linguistica Computazionale sia grazie ai risultati ottenuti dai centri di ricerca IBM attivi in italia sin dagli anni ’60 fino agli inizi degli anni ’90. Oltre all’imponente opera di padre Busa, a metà degli anni ‘60 viene sviluppata la prima elaborazione statistica della Divina Commedia, grazie agli elaboratori 1401 e 7090, nel 1989 viene realizzato il primo Vocabolario Elettronico della Lingua Italiana (VELI) .

IBM Italia è sempre stata molto attiva nel campo della linguistica applicata: dal riconoscimento del parlato, alla sintesi della voce, dai primi tentativi di traduzione automatica alla lettura dei testi scritti, fino alla interpretazione del “linguaggio naturale”. Oggi l’impegno di IBM Italia continua nel sostegno a Senso Comune, l’iniziativa di una comunità di ricerca interdisciplinare che ha l’obiettivo di costituire una risorsa lessicale e semantica aperta della lingua italiana, integrando risorse dizionariali e contributi dei parlanti in un modello di rappresentazione della conoscenza linguistica dalle caratteristiche fortemente innovative.

La lunga tradizione nello studio della tecnologia della lingua, avviata da Roberto Busa, ha recentemente avuto un momento di formidabile accelerazione con Watson e Jeopardy!. Forse non è un caso se il team di ricerca vanta una considerevole componente di ricercatori italiani ed ha visto la collaborazione di una università italiana.