O que torna a tradução de fala única - e como você pode entender isso para quebrar as barreiras linguísticas mais desafiadoras

As pessoas não falam da mesma forma que escrevem. Você também não sente as conversas faladas da mesma forma que sente ao ler um e-mail ou um artigo. Nossa capacidade de entender uns aos outros no momento da fala - reunindo todos os tipos de comunicação verbal e não verbal para entender instantaneamente o que alguém quer dizer - é o ato de alta tensão da expressão humana. Quando você dá um passo atrás e considera o que acontece em uma conversa, é incrível a quantidade de informações que são transmitidas tão rapidamente. 

Quando você define a tarefa de traduzir as interações faladas à medida que elas acontecem, como a DeepL fez com nossa nova solução DeepL Voice, você descobre todos os tipos de percepções fascinantes sobre o que torna a tradução da linguagem falada diferente da tradução de texto.você descobre todos os tipos de percepções fascinantes sobre o que torna a tradução do idioma falado diferente da tradução de texto. Neste post, compartilharei alguns desses insights e explicarei como os estamos usando para transformar a experiência de reuniões e conversas.

Os desafios da tradução de fala em tempo real e como os superamos

A comunicação instantânea e conversacional é fundamentalmente humana, e é extremamente difícil para a tecnologia replicar - mesmo uma tecnologia tão avançada quanto a IA. Se você deseja criar soluções para Business que possam ajudar as pessoas a acompanhar e participar de conversas em vários idiomas, é preciso começar com uma profunda compreensão dos desafios envolvidos.

Esses desafios incluem replicar a habilidade humana de antecipar o que as pessoas estão dizendo antes que elas terminem de dizer. Ao traduzir a fala em situações ao vivo, você também precisa prever como as palavras de alguém podem ser melhor expressas em outro idioma. No entanto, o mais importante é que você faça isso antes de saber com certeza como a frase original terminará, para evitar longos intervalos de tempo. O desafio aqui é que o que parece ser uma tradução precisa de algumas palavras pode se tornar uma tradução imprecisa quando o individual completa sua frase. 

Quando definimos o desenvolvimento do DeepL Voice, sabíamos que a tradução de alta qualidade da fala ao vivo não poderia ser obtida somente com a tecnologia. Depende de um profundo interesse e compreensão das diferentes maneiras como o idioma funciona. Por isso, reunimos especialistas em linguística que se aplicam a conversas faladas e aproveitamos o poderoso entendimento contextual do DeepL sobre o funcionamento de diferentes idiomas. Também fizemos parcerias com Business para explorar suas prioridades e a experiência de tradução de fala que gera mais valor para você.

A enorme diferença que um segundo pode fazer

Um dos primeiros insights que aprendemos é que o tempo é tudo quando se trata da tradução em tempo real de uma reunião ou conversa. Se você conseguir se aproximar da velocidade da fala - exibindo a tradução de uma frase no momento em que o orador a termina -, poderá ter um grande impacto na inclusão dessas reuniões. 

Como Christine Aubry, coordenadora internacional do fabricante internacional de confeitaria Brioche Pasquier, explicou em DeepL Dialoguesas traduções mais rápidas mudam o modo de participação das pessoas de passivo para ativo. Em vez de se esforçarem para acompanhar o que os outros estão dizendo em outro idioma, eles se sentem totalmente atualizados. Como um falante nativo do idioma, eles têm a oportunidade de intervir, moldar a conversa e participar ativamente. Um segundo ou mais faz uma grande diferença.

Portanto, a velocidade é uma prioridade máxima na tradução de fala em tempo real. Mas a velocidade precisa ser equilibrada com outras prioridades que também têm um grande impacto na experiência das pessoas. As traduções devem ser tão precisas quanto possível para evitar mal-entendidos e confusão. E, sempre que possível, as traduções devem minimizar a "cintilação" que ocorre quando um texto traduzido anteriormente precisa ser corrigido porque o significado foi alterado. Quanto menor for a taxa de oscilação, mais fácil será para você acompanhar uma conversa de forma natural.

Como o idioma é alterado quando as pessoas estão falando, e não digitando

Para traduzir a fala ao vivo com precisão, é importante que você entenda as muitas diferenças entre os padrões do idioma escrito e os ritmos da fala. Por exemplo, a maneira como as pessoas falam é muito mais individual e menos consistente do que a maneira como escrevem. Eles empregam expressões e coloquialismos distintos que podem ter origem em dialetos regionais e também em sua personalidade ou autoimagem particular. Além disso, as pessoas constroem e corrigem frases enquanto estão falando, o que leva a disfluências em que um termo gramaticalmente incorreto é imediatamente seguido por outro mais correto. Reproduzi-los literalmente na tradução não é útil para quem está tentando entender o significado. 

Durante as conversas, as pessoas também fazem afirmações curtas - como "uh-huh " - para garantir aos interlocutores que entendem ou concordam com o que estão dizendo. Isso ajuda o fluxo da conversa em si, mas atrapalha as traduções para as pessoas que tentam acompanhar em outro idioma. É útil que você filtre esses elementos do idioma falado em uma tradução.

Otimização para tradução em tempo real

O desafio fica ainda mais interessante quando você considera que uma plataforma de tradução em tempo real não está traduzindo frases completas. Ele precisa traduzir uma frase enquanto ela está sendo falada, quando o significado final dessa frase ainda não está claro. Isso exige que otimizemos as traduções de uma maneira ligeiramente diferente. Não queremos apenas a tradução mais precisa, mas uma tradução precisa que seja flexível o suficiente para incorporar novas informações que possam alterar a direção do que está sendo dito.

Aqui está um exemplo: Imagine que estamos traduzindo uma reunião virtual em que um dos participantes está falando em inglês e um dos outros participantes está acompanhando o que ele está dizendo com legendas em alemão. Nosso interlocutor inglês interrompe a conversa para dizer: "I found it". Agora, se considerarmos que essa é uma frase completa, a melhor tradução alemã possível seria: "Ich habe es gefunden". Entretanto, como se trata de um discurso ao vivo, não podemos ter certeza se a frase está completa ou não.

Uma opção melhor, nesse caso, poderia ser usar uma tradução como "Ich fand es". Por quê? Porque quando o falante de inglês continua dizendo "I found it frustrating", a tradução de "ich fand es" está perfeitamente posicionada para simplesmente adicionar a palavra "frustrierend". Se as três primeiras palavras fossem traduzidas como "Ich habe es gefunden", a tradução inteira precisaria ser revisada. Esse é o tipo de "cintilação" importante que atrapalha você a acompanhar intuitivamente uma conversa e que o DeepL procura minimizar sempre que possível.

A tradução de fala precisa e em tempo real envolve uma ampla gama de julgamentos contextuais que são mais bem feitos quando a tecnologia é orientada pela experiência humana. Essa experiência inclui insights sobre onde os diferentes idiomas provavelmente posicionam os verbos que são cruciais para o significado de uma frase. Se eles vierem no início (como em francês e espanhol), você poderá exibir uma tradução mais rapidamente do que se vierem no final. Tudo isso ajuda o sistema a fazer uma pausa suficiente para ser preciso, mas não tão longa a ponto de atrasar a compreensão desnecessariamente.

Encontrando o ponto ideal por meio da compreensão específica do idioma

Essa combinação de experiência em linguística humana com tradução altamente precisa já está permitindo que o DeepL Voice faça uma grande diferença na experiência de reuniões e conversas para empresas internacionais. Entre elas está a NEC Corporation, que se tornou a primeira empresa a implementar totalmente o DeepL Voice, apenas algumas semanas após nosso lançamento oficial. 

O entusiasmo em torno do DeepL Voice reflete o fato de que este é um momento inovador para a tradução de fala. A capacidade de decodificar e traduzir o que as pessoas estão dizendo, enquanto elas dizem, multiplica o valor que podemos criar para os Business internacionais. Ele transforma a maneira como as equipes podem colaborar, constrói relacionamentos mais fortes e garante que diferentes ideias e perspectivas sejam sempre incluídas. 

Os avanços que fizemos até agora já estão fazendo uma grande diferença na maneira como as organizações operam. Há muito mais por vir!

Compartilhar