Cosa rende speciale la traduzione vocale e come capirla può aiutare a superare le barriere linguistiche più difficili.

Indice dei contenuti
- Le sfide della traduzione in tempo reale di voce e come le abbiamo superate
- La differenza enorme che può fare un secondo
- Come si modifica il linguaggio quando le persone parlano, invece di scrivere
- Ottimizzazione per la traduzione in tempo reale
- Trovare il punto giusto grazie alla comprensione specifica della lingua
La gente non parla come scrive. Inoltre, non vivono le conversazioni verbali allo stesso modo in cui vivono la lettura di un'e-mail o di un articolo. La nostra capacità di capirci al volo mentre parliamo, mettendo insieme tutti i tipi di comunicazione verbale e non verbale per capire subito cosa intende l'altro, è come un numero da funambolo nell'espressione umana. Quando ti fermi un attimo a pensare a cosa succede durante una chiacchierata, è incredibile quante informazioni si riescono a scambiare in così poco tempo.
Quando ti metti a tradurre le interazioni vocali mentre succedono, come ha fatto DeepL con la nostra nuova soluzione DeepL Voice, scopri un sacco di cose interessanti su cosa rende la traduzione del parlato diversa dalla traduzione del testo. In questo post condividerò alcune di queste intuizioni e spiegherò come le stiamo usando per cambiare il modo di fare riunioni e conversazioni.
Le sfide della traduzione in tempo reale di voce e come le abbiamo superate
La comunicazione istantanea e colloquiale è una cosa tipicamente umana ed è davvero difficile da riprodurre con la tecnologia, anche se è super avanzata come l'IA. Se vuoi creare soluzioni aziendali che aiutino le persone a seguire e partecipare a conversazioni in più lingue, devi prima capire bene le sfide che ci sono.
Queste sfide includono la capacità di anticipare quello che le persone stanno dicendo prima ancora che finiscano di dirlo. Quando traduci la voce in situazioni live, devi anche capire come le parole di qualcuno possono essere dette meglio in un'altra lingua. Ma, cosa importante, devi farlo prima di sapere per certo come finirà la frase originale, così da evitare lunghi ritardi. Il problema è che una traduzione che sembra giusta per qualche parola potrebbe non esserlo più quando l'utente singolo finisce la frase.
Quando abbiamo iniziato a sviluppare DeepL Voice, sapevamo che una traduzione vocale in tempo reale di alta qualità non poteva essere ottenuta solo con la tecnologia. Dipende da un grande interesse e da una buona comprensione dei diversi modi in cui funziona il linguaggio. Quindi abbiamo messo insieme esperti di linguistica che si occupano di conversazioni parlate e abbiamo sfruttato la forte comprensione contestuale di DeepL su come funzionano le diverse lingue. Abbiamo anche collaborato con partner aziendali per capire quali sono le loro priorità e quale tipo di traduzione vocale è più utile per loro.
La differenza enorme che può fare un secondo
Una delle prime cose che abbiamo capito è che il tempismo è fondamentale quando si tratta di tradurre in tempo reale una riunione o una conversazione. Se riesci ad avvicinarti alla velocità della voce, mostrando la traduzione di una frase prima che chi parla abbia finito di dirla, allora puoi davvero cambiare quanto inclusive possono essere quelle riunioni.
Come ha detto Christine Aubry, che si occupa di coordinare le cose a livello internazionale per Brioche Pasquier, un'azienda manifatturiera che fa dolci da tutto il mondo, ha spiegato a DeepL Dialogues, le traduzioni più veloci fanno passare le persone da una partecipazione passiva a una attiva. Invece di fare fatica a stare al passo con quello che dicono gli altri in un'altra lingua, si sentono completamente al passo. Proprio come chi parla la lingua madre, hanno la possibilità di intervenire, guidare la conversazione e partecipare attivamente. Un secondo fa una differenza enorme.
La velocità è quindi una priorità assoluta quando si traduce il parlato in tempo reale. Ma la velocità deve essere bilanciata con altre cose importanti che influiscono molto su come le persone vivono la loro esperienza. Le traduzioni devono essere il più precise possibile per evitare fraintendimenti e confusione. E, quando possibile, le traduzioni devono ridurre al minimo il "flickering" che si verifica quando un testo già tradotto deve essere corretto perché il significato è stato modificato. Più bassa è la frequenza di questo sfarfallio, più facile è seguire una conversazione in modo naturale.
Come si modifica il linguaggio quando le persone parlano, invece di scrivere
Per tradurre bene la voce dal vivo, è importante capire le tante differenze tra come si scrive e come si parla. Per esempio, il modo in cui le persone parlano è molto più utente singolo e meno coerente rispetto a come scrivono. Usano espressioni e modi di dire particolari che potrebbero derivare sia dai dialetti regionali sia dalla loro personalità o immagine di sé. Inoltre, le persone costruiscono e correggono le frasi mentre parlano, il che porta a delle interruzioni dove un termine grammaticalmente sbagliato viene subito seguito da un altro più corretto. Riprodurre queste parole alla lettera nella traduzione non aiuta chi cerca di capire il significato.
Durante le chiacchierate, le persone dicono anche delle piccole frasi di conferma, tipo "uh-huh", per far capire a chi parla che hanno capito o sono d'accordo con quello che sta dicendo. Questi aiutano il flusso della conversazione stessa, ma rendono le traduzioni più confuse per chi cerca di seguire in un'altra lingua. È utile togliere questi elementi del linguaggio parlato da una traduzione.
Ottimizzazione per la traduzione in tempo reale
La sfida diventa ancora più interessante se pensi che una piattaforma di traduzione in tempo reale non traduce frasi complete. Deve tradurre una frase mentre viene detta, quando il significato finale di quella frase non è ancora chiaro. Questo ci fa ottimizzare le traduzioni in un modo un po' diverso. Non vogliamo solo la traduzione più accurata, ma una traduzione accurata che sia abbastanza flessibile da includere nuove informazioni che potrebbero modificare il senso di quello che viene detto.
Ecco un esempio: Immagina che stiamo traducendo una riunione virtuale in cui uno dei partecipanti parla inglese e un altro segue quello che dice grazie ai sottotitoli in tedesco. Il nostro amico che parla inglese interrompe la chiacchierata per dire: «L'ho trovato». Ora, se pensiamo che questa sia una frase completa, la traduzione migliore in tedesco sarebbe : "Ich habe es gefunden". Comunque, visto che si tratta di una voce dal vivo, non possiamo essere sicuri se la frase sia completa o meno.
In questo caso, una scelta migliore potrebbe essere quella di usare una traduzione come "Ich fand es". Perché? Perché quando chi parla inglese continua dicendo "I found it frustrating" (L'ho trovato frustrante), la traduzione "ich fand es" è perfetta per aggiungere semplicemente la parola "frustrierend". Se le prime tre parole fossero tradotte come "Ich habe es gefunden", bisognerebbe cambiare tutta la traduzione. Questo è il tipo di "disturbo" che rende difficile seguire una conversazione in modo intuitivo e che DeepL cerca di ridurre al minimo ogni volta che può.
Una traduzione vocale accurata e in tempo reale richiede un sacco di valutazioni contestuali che funzionano meglio quando la tecnologia è guidata dall'esperienza umana. Questa competenza include la comprensione di dove le diverse lingue tendono a mettere i verbi che sono fondamentali per il significato di una frase. Se sono all'inizio (come in francese e spagnolo), puoi mostrare la traduzione più velocemente rispetto a quando sono alla fine. Tutto questo aiuta un sistema a fermarsi giusto il tempo necessario per essere preciso, ma non così a lungo da rallentare inutilmente la comprensione.
Trovare il punto giusto grazie alla comprensione specifica della lingua
Grazie a questa combinazione di competenze linguistiche umane e traduzioni super precise, DeepL Voice sta già facendo un bel salto di qualità nell'esperienza delle riunioni e delle conversazioni per le aziende internazionali. Tra queste c'è NEC Corporation, che è stata la prima azienda a distribuire completamente DeepL Voice, solo poche settimane dopo il nostro lancio ufficiale.
L'entusiasmo per DeepL Voice mostra che questo è un momento davvero importante per la traduzione vocale. La capacità di capire e tradurre quello che le persone dicono mentre lo dicono, rende ancora più grande il valore che possiamo dare alle aziende aziendali. Cambia il modo in cui i team lavorano insieme, crea legami più forti e fa in modo che ci siano sempre idee e punti di vista diversi.
I progressi che abbiamo fatto finora stanno già cambiando un sacco il modo in cui le organizzazioni lavorano. C'è ancora un sacco di roba in arrivo!