Lingue ritrovate

Lingue morte o “resuscitate”? Grazie all’intelligenza artificiale, lingue antiche e indecifrabili diventano finalmente comprensibili.

Nessuna spedizione alla ricerca di stele e papiri dispersi. Le lingue antiche oggi riprendono vita grazie alla tecnologia di ultima generazione. Il merito va a un gruppo di ricercatori del MIT Computer Science & Artificial Intelligence Laboratory (CSAIL), che ha sviluppato un nuovo modello di Intelligenza Artificiale in grado di decifrare automaticamente le lingue perdute.

La rivoluzione sta nel decriptare lingue tuttora indecifrabili senza metterle in relazione con altre lingue esistenti. Questo algoritmo può dunque risultare efficace nei processi di conoscenza e traduzione di interi testi che, ad oggi, non si è ancora riusciti a interpretare.

Gran parte delle lingue perdute e tuttora rimaste indecifrate presentano due caratteristiche costanti: dall’analisi degli scritti è emerso che le singole parole non sono sempre distinguibili, ed è spesso impossibile determinare quale sia la lingua esistente più prossima a quella analizzata.

Una delle lingue studiate tramite questo nuovo algoritmo è l’iberico, parlata da tribù preistoriche diffuse nelle parti meridionale e occidentale dell’attuale Spagna. Sono proprio queste tribù a dare alla penisola il nome attuale. Molti caratteri di questa lingua ormai perduta sono riconducibili al greco, mentre tanti altri non sono ancora comprensibili. Si pensava inoltre che il basco derivasse dall’iberico ma oggi anche questa ipotesi sembra essere stata screditata da recenti studi linguistici.

Fino a poco tempo fa, gli algoritmi utilizzati per decifrare lingue perdute mettevano in relazione queste con le lingue esistenti. Si era in grado di stabilire a priori una connessione tra le due lingue, riconducendo entrambe alla stessa famiglia linguistica.

Nel caso una lingua non presenti alcuna relazione con i linguaggi esistenti, come accade per l’iberico –, il modello elaborato dal team del MIT cerca di mettere in relazione quelle (poche migliaia di) parole sotto segmentate provenienti dalla lingua perduta e quelle del vocabolario di una lingua conosciuta. Proprio perché una lingua come l’iberico non è considerata simile a nessuna lingua moderna, il modello cerca di abbinare gli intervalli nei testi ritrovati in essa con unità semantiche (detti token) già note.

Che l’algoritmo porti alla luce, insieme a una nuova lingua, i resti di una o più civiltà perdute? È quello che ci auguriamo!