Nell’episodio “Guarigione da forza cosmica” (titolo originale: Metamorphosis) della seconda stagione della serie originale di Star Trek, il Capitano Kirk utilizza un dispositivo definito “traduttore universale” per comunicare con una forma di vita aliena. La tecnologia in possesso della Federazione dei Pianeti Uniti non è evidentemente giunta ancora su Q’onoS, pianeta natale della razza quasi nemica Klingon, visto che nel sesto film della saga, Rotta verso l’ignoto (titolo originale: The Undiscovered Country), Kirk viene processato e gli viene fornito un servizio di interpretazione simultanea classica.

L’Artificial Speech Translation

L’articolo comparso la settimana scorsa su The Guardian inerente alla traduzione simultanea ha sottolineato, una volta ancora, la limitatezza delle risorse di intelligenza artificiale, comunemente indicate con l’acronimo inglese AI (artificial intelligence), rispetto alla possibilità di fornire risultati soddisfacenti nella traduzione istantanea di testi orali. Scrivo volutamente traduzione simultanea e non interpretazione simultanea perché di questo si tratta.
Semplificando per chi non è del mestiere, tradizionalmente la traduzione si differenzia dall’interpretazione per vari motivi, tra cui la forma e il momento della fruizione. Per la prima, scritta, tale momento è differito. Il traduttore parte dal testo originale, effettua delle trasformazioni (la trasposizione da una lingua all’altra) e fornisce il testo scritto nella lingua di destinazione. I destinatari dovranno quindi attendere la conclusione del processo in quanto, fino al suo completamento, la traduzione non è fruibile. Nell’interpretazione, il testo di partenza e destinazione sono orali e la differenza temporale tra produzione nella lingua originale e resa in quella di destinazione è dell’ordine dei secondi. Il fruitore riceve la traduzione sostanzialmente nello stesso momento in cui viene prodotta. Inoltre, traduttori e interpreti hanno due percorsi formativi separati e due professioni separate.
Proprio per questi motivi, nell’accezione tradizionale non ha senso parlare di traduzione simultanea.
Tutta questa premessa serve a spiegare che difficilmente le due pratiche si intersecano: la traduzione è scritta e differita, l’interpretazione orale e immediata.

Una minaccia per traduttori e interpreti?

Ciò che l’artificial speech translation riesce a fare, invece, è utilizzare un approccio inclusivo per fasi che riunisce le diverse pratiche e tecnologie, alcune mature, altre meno, segnatamente:
– una prima fase in cui un software di riconoscimento vocale ascolta e trascrive il testo orale di partenza;
– una seconda fase in cui piattaforme dotate di intelligenza artificiale “comprendono” il testo trascritto e lo traducono in maniera automatica;
riproponendo all’utente la traduzione così ottenuta.

Risultati in questo senso sono già fruibili. Utilizzando la prima delle due fasi descritte, è possibile creare sottotitoli per coloro i quali hanno problemi di udito nella lingua di chi parla. La tecnologia è già disponibile su YouTube e ben descritta qui.

Aggiungendo la seconda fase, si possono sottotitolare in tempo (quasi) reale programmi televisivi o lezioni universitarie. Come ci ricorda Marek Kohn autore dell’articolo sopra richiamato, il Prof. Alexander Waibel, docente di informatica presso il Karlsruhe Institute of Technology, tiene già lezioni in tedesco che i suoi studenti inglesi possono seguire nella propria lingua madre proprio grazie a queste tecnologie.
Una terza fase, al momento in fase di attuazione, prevede la rilettura del testo tradotto tramite una piattaforma/motore di sintesi vocale, o text-to-speech platform/engine in inglese.

Il prossimo passo nello sviluppo dell’artificial speech translation sarà l’utilizzo di piattaforme fisse o mobili che, grazie all’utilizzo di internet, potranno farci da interprete autonomamente. In un esperimento condotto poco più di un anno fa nell’ambito della normale attività di ricerca e sviluppo di Google, un addetto alla concierge in un albergo è stato avvicinato da un “turista” tedesco (in realtà un impiegato di Google di madrelingua tedesca), il quale ha chiesto informazioni per acquistare i biglietti di alcuni spettacoli. Il portiere ha acceso un dispositivo Google Home e, utilizzando solo la voce e un piccolo display da 7 pollici, ha chiesto al dispositivo di accedere alla modalità “interprete di tedesco”. Grazie alla traduzione, l’addetto e l’ospite hanno potuto interagire fino all’acquisto dei biglietti. Non solo. Un paio di mesi dopo il motore di sintesi vocale è stato migliorato per fornire una resa molto meno metallica e meccanica, meno artificiale, e avvicinarsi il più possibile a quella umana. Questo grazie alla rielaborazione non di piccoli pezzi di conversazione preimpostati che vengono uniti insieme, ma alla generazione del discorso effettivamente da pronunciare tramite un algoritmo generativo noto come WaveNet, in grado di “creare” un secondo di conversazione in circa 50 millisecondi.

Certo, siamo ancora lontani dal droide protocollare D-3BO di Guerre Stellari, in grado di parlare 6 milioni di lingue e dialetti galattici…

Le conclusioni, anzi no

Ora, verrebbe da trarre immediatamente delle conclusioni.
La professione di interprete, specie per quelle lingue più facilmente schematizzabili in algoritmi, è a rischio estinzione in poco tempo.
Con lo stesso principio, lo è anche quella di traduttore.
Il perfezionamento degli algoritmi porterebbe a cancellare l’esigenza di apprendere una lingua straniera, visto che il traduttore universale sarà un dispositivo portatile, o persino integrato negli smartphone di futura generazione. Poco varrà, allora, essere giapponesi e avere di fronte un peruviano, visto che già adesso siamo in grado di comunicare.

Fin qui la teoria e parte della pratica. Nel prosieguo di questo articolo, tuttavia, affronterò la questione di come queste conclusioni siano solo in minima parte corrette e di quanto c’è ancora da fare nel settore.

Nel frattempo, mi piacerebbe raccogliere impressioni e opinioni da parte vostra e vi invito a lasciare un commento nello spazio sotto.

Condividi il contenuto