O que torna a tradução de voz única — e como compreendê-la pode eliminar as barreiras do idioma mais desafiadoras

As pessoas não falam da mesma forma que escrevem. Eles também não vivenciam conversas faladas da mesma forma que vivenciam a leitura de um e-mail ou de um artigo. A nossa capacidade de compreender uns aos outros no momento da fala — reunindo todos os tipos de comunicação verbal e não verbal para entender instantaneamente o que alguém quer dizer — é o ato de equilíbrio da expressão humana. Quando se reflete sobre o que ocorre numa conversa, é impressionante a quantidade de informações que são transmitidas tão rapidamente. 

Quando se define a tarefa de traduzir interações faladas à medida que elas ocorrem, como a DeepL fez com a nossa nova solução DeepL Voice, descobre todo o tipo de informações fascinantes sobre o que torna a tradução do idioma falado diferente do traduzir texto. Nesta publicação, partilharei algumas dessas ideias e explicarei como as estamos a utilizar para transformar a experiência das reuniões e conversas.

Os desafios da tradução de voz em tempo real e como os superamos

A comunicação instantânea e coloquial é fundamentalmente humana e é extremamente difícil para a tecnologia replicar — mesmo uma tecnologia tão avançada como a IA. Se pretende criar soluções empresariais que possam auxiliar as pessoas a acompanhar e participar de conversas em vários idiomas, é necessário começar por compreender profundamente os desafios envolvidos.

Esses desafios incluem replicar a habilidade humana de antecipar o que as pessoas estão a dizer antes que elas terminem de falar. Ao traduzir voz em situações ao vivo, é necessário antecipar a melhor forma de expressar as palavras de alguém em outro idioma. No entanto, é fundamental que faça isso antes de saber com certeza como a frase original terminará, para evitar longos atrasos. O desafio aqui é que o que parece ser uma tradução precisa de algumas palavras pode acabar por ser uma tradução imprecisa quando o indivíduo terminar a sua frase. 

Quando definimos a DeepL Voice, sabíamos que a tradução ao vivo de alta qualidade não poderia ser alcançada apenas com tecnologia. Depende de um profundo interesse e compreensão das diferentes formas como o idioma funciona. Por isso, reunimos especialistas em linguística aplicada a conversas faladas e aproveitamos a poderosa compreensão contextual da DeepL sobre como diferentes idioms funcionam. Também estabelecemos parcerias com empresariais para explorar as suas prioridades e a experiência de tradução de voz que gera mais valor para elas.

A enorme diferença que um segundo pode fazer

Uma das primeiras conclusões que aprendemos é que o timing é fundamental quando se trata da tradução em tempo real de uma reunião ou conversa. Se for possível aproximar-se da velocidade da voz — exibindo a tradução de uma frase assim que o orador a terminar —, poderá ter um impacto significativo na inclusão dessas reuniões. 

Como Christine Aubry, coordenadora internacional da fabricante global de produtos de pastelaria Brioche Pasquier, explicou explicou na DeepL Dialogues, traduções mais rápidas mudam o modo de participação das pessoas de passivo para ativo. Em vez de se esforçarem para acompanhar o que os outros estão a dizer noutra língua, sentem-se totalmente à vontade. Tal como um falante nativo de um idioma, eles têm a oportunidade de intervir, moldar a conversa e participar ativamente. Um segundo faz uma enorme diferença.

A velocidade é, portanto, uma prioridade máxima na tradução de voz em tempo real. No entanto, a velocidade deve ser equilibrada com outras prioridades que também têm um grande impacto na experiência das pessoas. As traduções devem ser o mais precisas possível para evitar mal-entendidos e confusão. E, sempre que possível, as traduções devem minimizar a «instabilidade» que ocorre quando um texto traduzido anteriormente precisa ser corrigido porque o significado alterou. Quanto menor for a frequência dessa oscilação, mais fácil será para alguém acompanhar uma conversa de maneira natural.

Como o idioma altera quando as pessoas estão a falar, em vez de a escrever

Para traduzir com precisão a voz ao vivo, é importante compreender as muitas diferenças entre os padrões do idioma escrito e os ritmos da voz. Por exemplo, a forma como as pessoas falam é muito mais individual e menos consistente do que a forma como escrevem. Eles empregam expressões e coloquialismos distintos que podem ter origem tanto em dialetos regionais quanto em sua personalidade ou autoimagem particular. Além disso, as pessoas constroem e corrigem frases enquanto falam, levando a disfluências em que um termo gramaticalmente incorreto é imediatamente seguido por outro, mais correto. Reproduzir estas expressões literalmente na tradução não é útil para alguém que está a tentar compreender o significado. 

Ao longo das conversas, as pessoas também proferem pequenas afirmações — como «uh-huh» — para tranquilizar os interlocutores de que compreendem ou concordam com o que estão a dizer. Isso contribui para o fluxo da conversa em si, mas pode dificultar a compreensão para as pessoas que estão a acompanhar em outro idioma. É útil filtrar esses elementos do idioma falado de uma tradução.

Otimização para tradução em tempo real

O desafio torna-se ainda mais interessante quando se considera que uma plataforma de tradução em tempo real não traduz frases completas. É necessário traduzir uma frase enquanto ela está a ser dita, quando o significado final dessa frase ainda não está claro. Isso requer que otimizemos as traduções de uma maneira ligeiramente diferente. Não desejamos apenas a tradução mais precisa, mas uma tradução precisa que seja flexível o suficiente para incorporar novas informações que possam alterar o sentido do que está a ser dito.

Aqui está um exemplo: Imagine que estamos a traduzir uma reunião virtual na qual um dos participantes está a falar inglês e um dos outros participantes está a acompanhar o que ele está a dizer com legendas em alemão. O nosso interlocutor de inglês interrompe a conversa para dizer: «Encontrei.» Agora, se considerarmos que esta é uma frase completa, a melhor tradução possível para o alemão seria: «Ich habe es gefunden.» No entanto, como se trata de uma voz ao vivo, não podemos ter certeza se a frase está completa ou não.

Neste caso, uma opção mais adequada poderia ser utilizar uma tradução como “Ich fand es”. Porquê? Porque quando o falante de inglês continua dizendo «I found it frustrating» (Achei frustrante), a tradução «ich fand es» está perfeitamente posicionada para simplesmente adicionar a palavra «frustrierend». Se as três primeiras palavras fossem traduzidas como «Ich habe es gefunden», toda a tradução precisaria ser revista. Esse é o tipo de grande "falha" que atrapalha o acompanhamento intuitivo de uma conversa e que o DeepL procura minimizar sempre que possível.

A tradução precisa e em tempo real de voz envolve uma ampla gama de julgamentos contextuais que são melhor realizados quando a tecnologia é orientada pela experiência humana. Essa especialização inclui conhecimentos sobre onde diferentes idiomas tendem a posicionar os verbos que são cruciais para o significado de uma frase. Se elas vierem no início (como em francês e espanhol), é possível exibir uma tradução mais rapidamente do que quando elas vêm no final. Tudo isso contribui para que um sistema faça uma pausa longa o suficiente para ser preciso, mas não tão longa a ponto de atrasar desnecessariamente a compreensão.

Encontrando o ponto ideal através da compreensão específica do idioma

Esta combinação de conhecimentos linguísticos humanos com tradução altamente precisa já está a permitir que o DeepL Voice faça uma grande diferença na experiência de reuniões e conversas para empresas internacionais. Entre elas está a NEC Corporation, que se tornou a primeira empresa a implementar totalmente o DeepL Voice, apenas algumas semanas após o nosso lançamento oficial. 

O entusiasmo em torno do DeepL Voice reflete o facto de que este é um momento inovador para a tradução de voz. A capacidade de decifrar e traduzir o que as pessoas estão a dizer, enquanto elas estão a dizer, multiplica o valor que podemos criar para os empresariais internacionais. Transforma a forma como as equipas podem colaborar, constrói relações mais fortes e garante que diferentes ideias e perspetivas sejam sempre incluídas. 

Os avanços que alcançámos até agora já estão a fazer uma grande diferença na forma como as organizações operam. Há muito mais por vir!

Partilhar