Ce qui rend la traduction vocale unique — et comment sa compréhension peut surmonter les barrières linguistiques les plus complexes

Les gens ne s'expriment pas de la même manière à l'oral et à l'écrit. Ils ne perçoivent pas non plus les conversations orales de la même manière qu'ils perçoivent la lecture d'un e‑mail ou d'un article. Notre capacité à nous comprendre mutuellement au moment où nous parlons — en combinant toutes sortes de communications verbales et non verbales pour saisir instantanément ce que quelqu'un veut dire — est un véritable numéro de funambule dans l'expression humaine. Lorsque l'on prend du recul et que l'on réfléchit à ce qui se passe dans une conversation, il est impressionnant de constater la quantité d'informations qui sont transmises en si peu de temps. 

Lorsque vous vous définissez l'objectif de traduire les interactions orales en temps réel, comme DeepL l'a fait avec notre nouvelle solution DeepL Voice, vous découvrez toutes sortes d'informations fascinantes sur ce qui différencie la traduction de la langue parlée de la traduction de texte. Dans cet article, je vais partager certaines de ces informations et expliquer comment nous les utilisons pour transformer l'expérience des réunions et des conversations.

Les défis liés à la traduction de la voix en temps réel et comment nous les avons surmontés

La communication instantanée et conversationnelle est fondamentalement humaine, et il est extrêmement difficile pour la technologie de la reproduire, même une technologie aussi avancée que l'IA. Si vous souhaitez créer des solutions pour les professionnels qui permettent aux utilisateurs de suivre et de participer à des conversations dans plusieurs langues, il est essentiel de commencer par bien comprendre les défis que cela représente.

Ces défis incluent la reproduction de la capacité humaine à anticiper ce que les gens disent avant même qu'ils aient fini de le dire. Lorsque vous traduisez la voix en direct, vous devez également anticiper la meilleure façon d'exprimer les propos d'une personne dans une autre langue. Il est toutefois essentiel de procéder ainsi avant de connaître avec certitude la fin de la phrase originale, afin d'éviter des délais importants. Le défi ici est que ce qui semble être une traduction précise de quelques mots peut s'avérer être une traduction inexacte une fois que l'individuel a terminé sa phrase. 

Lorsque nous avons défini DeepL Voice, nous étions conscients que la technologie seule ne suffirait pas à garantir une traduction en direct de haute qualité. Cela dépend d'un intérêt profond et d'une compréhension approfondie des différentes façons dont la langue fonctionne. Nous avons donc réuni des experts en linguistique appliquée aux conversations orales et avons exploité la puissante compréhension contextuelle de DeepL du fonctionnement des différentes langues. Nous avons également établi des partenariats avec des professionnels afin d'examiner leurs priorités et l'expérience de traduction vocale qui leur apporte le plus de valeur.

L'importance considérable qu'une seconde peut avoir

L'une des premières leçons que nous avons apprises est que le timing est essentiel lorsqu'il s'agit de traduire en temps réel une réunion ou une conversation. Si vous parvenez à vous rapprocher de la vitesse de la voix, c'est-à-dire à afficher la traduction d'une phrase avant même que l'orateur ait fini de la prononcer, vous pouvez considérablement améliorer le caractère inclusif de ces réunions. 

Comme l'a expliqué Christine Aubry, coordinatrice internationale pour le fabricant international de pâtisseries Brioche Pasquier, lors des DeepL Dialogues, des traductions plus rapides font passer les gens d'une participation passive à une participation active. Plutôt que de s'efforcer de suivre ce que les autres disent dans une autre langue, ils se sentent parfaitement à l'aise. À l'instar d'un locuteur natif de langue, ils ont la possibilité d'intervenir, d'orienter la conversation et de participer activement. Une seconde peut faire une différence considérable.

La rapidité est donc une priorité absolue lors de la traduction de la voix en temps réel. Cependant, la rapidité doit être mise en balance avec d'autres priorités qui ont également un impact important sur l'expérience des personnes. Les traductions doivent être aussi précises que possible afin d'éviter tout malentendu et toute confusion. Dans la mesure du possible, les traductions doivent minimiser les « fluctuations » qui surviennent lorsque le texte précédemment traduit doit être corrigé en raison d'un sens qui a changé. Plus le taux de scintillement est faible, plus il est facile de suivre une conversation de manière naturelle.

Comment la langue change lorsque les gens parlent, et non lorsqu'ils écrivent

Pour traduire avec précision un discours en direct, il est essentiel de comprendre les nombreuses différences entre les structures de la langue écrite et les rythmes de la parole. Par exemple, la manière dont les gens s'expriment à l'oral est beaucoup plus individuelle et moins cohérente que leur manière d'écrire. Ils utilisent des expressions et des tournures de phrases distinctes qui peuvent provenir à la fois des dialectes régionaux et de leur personnalité ou image de soi particulières. De plus, les individus construisent et corrigent leurs phrases au fur et à mesure qu'ils parlent, ce qui entraîne des disfluences où un terme grammaticalement incorrect est immédiatement suivi d'un autre, plus correct. Les reproduire littéralement dans la traduction n'aide pas quelqu'un qui essaie d'en comprendre le sens. 

Au cours des conversations, les gens prononcent également de courtes affirmations, telles que « hum hum », pour rassurer leurs interlocuteurs et leur indiquer qu'ils comprennent ou approuvent ce qu'ils disent. Ces éléments facilitent le déroulement de la conversation, mais peuvent compliquer la compréhension pour les personnes qui suivent la conversation dans une autre langue. Il est utile de filtrer ces éléments de la langue parlée dans une traduction.

Optimisation pour la traduction en temps réel

Le défi devient encore plus intéressant lorsque l'on considère qu'une plateforme de traduction en temps réel ne traduit pas des phrases complètes. Il est nécessaire de traduire une phrase pendant qu'elle est prononcée, alors que sa signification finale n'est pas encore claire. Cela nous oblige à optimiser les traductions d'une manière légèrement différente. Nous ne recherchons pas seulement la traduction la plus précise, mais une traduction précise qui soit suffisamment flexible pour intégrer de nouvelles informations susceptibles de changer le sens du message.

Voici un exemple : Imaginons que nous traduisons une réunion virtuelle dans laquelle l'un des participants s'exprime en anglais et un autre participant suit ses propos grâce à des sous-titres en allemand. Notre interlocuteur anglophone interrompt la conversation pour indiquer : « Je l'ai trouvé. » Si nous considérons qu'il s'agit d'une phrase complète, la meilleure traduction allemande possible serait « Ich habe es gefunden ». Cependant, comme il s'agit d'une voix en direct, nous ne pouvons pas être certains que la phrase soit complète ou non.

Dans ce cas, il serait préférable d'utiliser une traduction telle que « Ich fand es » à la place. Pourquoi ? En effet, lorsque le locuteur anglais poursuit en disant « I found it frustrating » (j'ai trouvé cela frustrant), la traduction « ich fand es » est parfaitement placée pour simplement ajouter le mot « frustrierend ». Si les trois premiers mots étaient traduits par « Ich habe es gefunden », l'ensemble de la traduction devrait être révisé. C'est le type de « scintillement » majeur qui empêche de suivre intuitivement une conversation, et que DeepL vise à minimiser autant que possible.

Une traduction vocale précise et en temps réel implique un large éventail de jugements contextuels qui sont mieux effectués lorsque la technologie est guidée par l'expertise humaine. Cette expertise comprend des connaissances approfondies sur la position que les différentes langues sont susceptibles de donner aux verbes qui sont essentiels à la signification d'une phrase. Si elles apparaissent au début (comme en français et en espagnol), il est possible d'afficher une traduction plus rapidement que lorsqu'elles apparaissent à la fin. Tout cela permet au système de marquer une pause suffisamment longue pour être précis, mais pas trop longue afin de ne pas retarder inutilement la compréhension.

Trouver le juste équilibre grâce à une compréhension spécifique de la langue

Cette combinaison d'expertise linguistique humaine et de traduction hautement précise permet déjà à DeepL Voice for Meetings d'améliorer considérablement l'expérience des réunions et des conversations pour les entreprises internationales. Parmi celles-ci figure NEC Corporation, qui est devenue la première entreprise à déployer entièrement DeepL Voice, quelques semaines seulement après notre lancement officiel. 

L'engouement suscité par DeepL Voice reflète le fait qu'il s'agit d'une avancée majeure dans le domaine de la traduction vocale. La capacité à décoder et à traduire ce que les gens expriment, au moment même où ils le font, renforce la valeur que nous pouvons apporter aux professionnels internationaux. Il transforme la manière dont les équipes collaborent, renforce les relations et garantit que différentes idées et perspectives sont toujours prises en compte. 

Les progrès réalisés jusqu'à présent ont déjà considérablement transformé le fonctionnement des organisations. Il y a encore beaucoup à venir.

Partager