¿Qué hace que la traducción por voz sea única y cómo su comprensión puede romper las barreras de idioma más difíciles?

La gente no habla de la misma manera que escribe. Tampoco experimentan las conversaciones habladas de la misma manera que experimentan la lectura de un correo electrónico o un artículo. Nuestra capacidad para entendernos mutuamente en el momento de hablar —reuniendo todo tipo de comunicación verbal y no verbal para captar al instante lo que alguien quiere decir— es el acto de equilibrio de la expresión humana. Cuando te detienes a pensar en lo que ocurre en una conversación, es sorprendente la cantidad de información que se transmite en tan poco tiempo. 

Cuando te defines la tarea de traducir interacciones habladas en tiempo real, como ha hecho DeepL con tu nueva solución DeepL Voice, descubres todo tipo de ideas fascinantes sobre lo que diferencia la traducción del idioma hablado de traducir texto. En esta publicación, compartiré algunas de esas ideas y explicaré cómo las estamos utilizando para transformar la experiencia de las reuniones y las conversaciones.

Los retos de traducir la voz en tiempo real y cómo los superamos

La comunicación instantánea y conversacional es algo fundamentalmente humano, y es extremadamente difícil de replicar con tecnología, incluso con una tecnología tan avanzada como la IA. Si deseas crear soluciones para profesionales que ayuden a las personas a seguir y participar en conversaciones en varios idiomas, debes empezar por comprender en profundidad los retos que ello conlleva.

Entre esos retos se encuentra el de replicar la habilidad humana de anticipar lo que las personas van a decir antes de que terminen de decirlo. Cuando traduces la voz en situaciones en vivo, también debes anticipar cuál es la mejor manera de expresar las palabras de alguien en otro idioma. Sin embargo, es fundamental que lo hagas antes de saber con certeza cómo terminará la frase original, para evitar largas demoras. El problema aquí es que lo que parece ser una traducción precisa de unas pocas palabras podría resultar ser una traducción inexacta una vez que el individual completa su frase. 

Cuando definimos desarrollar DeepL Voice, sabíamos que la traducción en directo de alta calidad del habla no se podía lograr solo con tecnología. Depende de un profundo interés y comprensión de las diferentes formas en que funciona el idioma. Así que reunimos a expertos en lingüística aplicada a las conversaciones orales y aprovechamos la potente comprensión contextual de DeepL sobre el funcionamiento de los diferentes idiomas. También hemos establecido socios con profesionales para explorar sus prioridades y la experiencia de traducción por voz que les aporta más valor.

La enorme diferencia que puede suponer un segundo

Una de las primeras cosas que aprendimos es que el tiempo lo es todo cuando se trata de la traducción en tiempo real de una reunión o una conversación. Si puedes acercarte a la velocidad de la voz (mostrando la traducción de una frase en el momento en que el hablante la ha terminado), entonces puedes influir enormemente en el grado de inclusión de esas reuniones. 

Como explica Christine Aubry, coordinadora internacional del fabricante mundial de pastelería Brioche Pasquier, explicó en DeepL Dialogues, las traducciones más rápidas hacen que la gente pase de una participación pasiva a una activa. En lugar de esforzarse por seguir el hilo de lo que dicen los demás en otro idioma, se sienten totalmente al día. Al igual que un hablante nativo de idioma, tienen la oportunidad de intervenir, dar forma a la conversación y participar activamente. Un segundo marca una gran diferencia.

Por lo tanto, la velocidad es una prioridad fundamental a la hora de traducir la voz en tiempo real. Pero la velocidad debe equilibrarse con otras prioridades que también tienen un gran impacto en la experiencia de las personas. Las traducciones deben ser lo más precisas posible para evitar malentendidos y confusiones. Y, siempre que sea posible, las traducciones deben minimizar el «parpadeo» que se produce cuando hay que corregir un texto traducido anteriormente porque su significado ha cambiado. Cuanto menor sea la frecuencia de este parpadeo, más fácil será seguir una conversación de forma natural.

Cómo cambia el idioma cuando las personas hablan, en lugar de escribir

Para traducir con precisión la voz en vivo, es importante comprender las numerosas diferencias entre los patrones del idioma escrito y los ritmos de la voz. Por ejemplo, la forma en que hablamos es mucho más individual y menos coherente que la forma en que escribimos. Usen expresiones y coloquialismos distintivos que podrían provenir tanto de dialectos regionales como de su personalidad o imagen personal particulares. Además, las personas construyen y corrigen frases mientras hablan, lo que da lugar a disfluencias en las que un término gramaticalmente incorrecto es seguido instantáneamente por otro más correcto. Reproducir esto literalmente en la traducción no ayuda a alguien que intenta comprender el significado. 

A lo largo de las conversaciones, las personas también pronuncian afirmaciones breves, como «ajá», para asegurar a los interlocutores que entienden o están de acuerdo con lo que dicen. Esto facilita el flujo de la conversación, pero complica la traducción para las personas que intentan seguirla en otro idioma. Es útil filtrar estos elementos del idioma hablado en una traducción.

Optimización para la traducción en tiempo real

El reto se vuelve aún más interesante si tenemos en cuenta que una plataforma de traducción en tiempo real no traduce frases completas. Es necesario traducir una frase mientras se está pronunciando, cuando el significado final de esa frase aún no está claro. Esto nos obliga a optimizar las traducciones de una forma ligeramente diferente. No solo queremos la traducción más precisa, sino una traducción precisa que sea lo suficientemente flexible como para incorporar nueva información que pueda cambiar el sentido de lo que se está diciendo.

Aquí tienes un ejemplo: Imaginemos que estamos traduciendo una reunión virtual en la que uno de los participantes habla en inglés y otro sigue lo que dice mediante subtítulos en alemán. Tu interlocutor de inglés interrumpe la conversación para decir: «Lo he encontrado». Ahora bien, si asumimos que se trata de una oración completa, la mejor traducción posible al alemán sería «Ich habe es gefunden». Sin embargo, dado que se trata de una voz en directo, no podemos estar seguros de si la frase está completa o no.

En este caso, una mejor opción podría ser utilizar una traducción como «Ich fand es» en su lugar. ¿Por qué? Porque cuando el hablante de inglés continúa diciendo «I found it frustrating» (Me pareció frustrante), la traducción «ich fand es» encaja perfectamente con solo añadir la palabra «frustrierend». Si las tres primeras palabras se tradujeran como «Ich habe es gefunden», habría que revisar toda la traducción. Ese es el tipo de «parpadeo» importante que impide seguir intuitivamente una conversación y que DeepL pretende minimizar en la medida de lo posible.

La traducción precisa y en tiempo real por voz implica una amplia gama de juicios contextuales que se realizan mejor cuando la tecnología se guía por la experiencia humana. Esa experiencia incluye conocimientos sobre dónde suelen colocarse en los diferentes idiomas los verbos que son cruciales para el significado de una frase. Si aparecen al principio (como en francés y español), es posible mostrar una traducción más rápidamente que cuando aparecen al final. Todo esto ayuda a que el sistema haga una pausa lo suficientemente larga como para ser preciso, pero no tan larga como para retrasar innecesariamente la comprensión.

Encontrar el punto óptimo a través de la comprensión específica del idioma

Esta combinación de experiencia lingüística humana con traducciones de gran precisión ya está permitiendo a DeepL Voice marcar una gran diferencia en la experiencia de las reuniones y conversaciones de las empresas internacionales. Entre ellas se encuentra NEC Corporation, que se convirtió en la primera empresa en implementar completamente DeepL Voice, solo unas semanas después de nuestro lanzamiento oficial. 

El entusiasmo que ha despertado DeepL Voice refleja el hecho de que se trata de un momento revolucionario para la traducción por voz. La capacidad de descodificar y traducir lo que dicen las personas, mientras lo dicen, multiplica el valor que podemos crear para los profesionales internacionales. Transforma la forma en que los equipos pueden colaborar, crea relaciones más sólidas y garantiza que siempre se incluyan diferentes ideas y perspectivas. 

Los avances que hemos logrado hasta ahora ya están marcando una gran diferencia en la forma en que operan las organizaciones. ¡Hay mucho más por venir!

Compartir