语音翻译的独特之处何在——以及理解其原理如何能打破最棘手的语言障碍

人们说话的方式与写作方式不同。他们体验口头对话的方式,也与阅读电子邮件或文章时截然不同。我们在言语交锋的瞬间相互理解的能力——将各种语言与非语言的交流方式融会贯通,瞬间领会对方意图——堪称人类表达的空中走钢丝。当你退后一步思考对话中的交流过程时,你会惊叹于如此短暂的时间内竟能传递如此多的信息。 

当你设置任务要实时翻译口语互动时,正如DeepL对我们 DeepL Voice解决方案时,你会发现发言语言翻译与翻译文本存在诸多差异,其中蕴含着各种引人入胜的洞见.在这篇文章中,我将分享其中的一些见解,并阐述我们如何运用这些见解来革新会议与对话的体验。

实时语音翻译的挑战及我们的应对之道

即时、对话式的交流本质上是人类特有的能力,技术要复制这种能力极其困难——即使是像人工智能这样先进的技术也不例外.若想为企业打造解决方案,帮助人们追踪并参与多语言对话,就必须从深入理解其中的挑战开始.

这些挑战包括复制人类在他人尚未说完之前就预判其言意的技能。在实时口译情境中,你还需要预判如何将说话者的原意最恰当地转化为另一种语言。关键在于,你必须确定原始句子如何结束之前完成这一操作,以避免长时间的延迟。此处的挑战在于,看似准确的几个词的翻译,一旦个人完成整个句子的表达,就可能变成不准确的翻译。 

在开发DeepL Voice时,我们深知仅凭技术手段无法实现高质量的实时语音翻译。这取决于对语言运作方式的深刻兴趣与理解。因此,我们汇聚了专注于口语对话的语言学专家,并借助DeepL对不同语言运作机制的强大语境理解能力.我们还与企业合作,共同探索他们的优先事项以及能为他们创造最大价值的语音翻译体验。

一秒钟能带来的巨大差异

我们最初学习到的一个关键点是:在会议或对话的实时翻译中,时机就是一切。若能接近语速——在说话者结束句子时同步显示翻译内容——那么就能极大提升会议的包容性. 

正如全球糕点生产商Brioche Pasquier的国际协调员克里斯汀·奥布里 在DeepL Dialogues中阐述道,更快的翻译能将人们的参与模式从被动切换为主动.与其费力地跟上他人用另一种语言所说的话,他们反而觉得自己完全跟得上节奏。如同母语使用者那样,他们有机会插话、引导对话并积极参与其中。短短一秒钟,却能带来天壤之别。

因此,在实时语音翻译中,速度是首要任务。但速度必须与其他同样对用户体验产生重大影响的优先事项相平衡。翻译必须尽可能准确,以避免误解和混淆。在可能的情况下,翻译必须尽量减少因已翻译文本含义变更而需要修正时产生的“闪烁”现象。这种闪烁的频率越低,人们就越容易自然地跟上对话。

当人们在交谈而非打字时,语言会如何变更

要准确翻译实时语音,关键在于理解书面语言的模式与口语节奏之间的诸多差异。例如,人们说话的方式远比写作方式更具个人化,也更不具一致性。他们使用独特的措辞和口语表达,这些表达既可能源于地方方言,也可能源于他们独特的个性或自我形象。此外,人们在说话时会即时构建和修正句子,这会导致语流中断——一个语法错误的术语会立刻被另一个更正确的术语所取代。在翻译中逐字复现这些内容,对试图理解其含义的人来说并无助益。 

在对话过程中,人们还会发出简短的肯定声——例如 "嗯哼"——以此向说话者表明自己理解或认同对方所说内容。这些有助于对话本身的流畅性,但会让试图用另一种语言跟进的人感到翻译内容杂乱无章。在翻译中过滤掉这些发言语言元素是有帮助的。

实时翻译优化

当考虑到实时翻译平台并非在翻译完整句子时,这项挑战就变得更有趣了。它需要在句子被说出的同时进行翻译,而此时该句子的最终含义尚未明确。这要求我们以略有不同的方式优化翻译。我们不仅追求最精确的翻译,更需要一种既准确又灵活的译文,能够融入可能变更话语方向的新信息。

以下是一个示例:假设我们正在翻译一场虚拟会议,其中一位参与者用英语发言,另一位参与者通过德语字幕实时跟进发言内容。我们的英语发言人打断了谈话,说道:“我找到了。”现在,如果我们假设这是一个完整的句子,那么最理想的德语翻译应该是:“Ich habe es gefunden.”然而,由于这是现场语音,我们无法确定这句话是否完整。

在这种情况下,更好的选择可能是使用类似“Ich fand es”的译法。为什么这么说呢?因为当英语使用者接着说"我觉得很沮丧"时,"ich fand es"的翻译恰好能直接添加"frustrierend"这个词。如果前三个词被译为“Ich habe es gefunden”,则整个译文都需要重新修订。这种重大"闪烁"会妨碍人们直观地跟上对话,而DeepL的目标就是尽可能将其降到最低。

精确的实时语音翻译涉及大量此类语境判断,而当技术由人类专业知识引导时,这类判断才能得到最佳实现。这种专业知识包括对不同语言中动词可能出现的句位位置的洞察——这些动词对句子的语义至关重要。如果它们出现在开头(如法语和西班牙语),则可能比出现在结尾时更快地显示翻译。这一切都有助于系统暂停足够长的时间以确保准确性,但又不会过长以致不必要地延迟理解。

通过语言特异性理解找到最佳平衡点

这种将人类语言学专长与高精度翻译相结合的技术,已使DeepL Voice为跨国企业的会议与对话体验带来显著提升。其中包括日本电气株式会社(NEC Corporation),该公司成为 首家全面部署DeepL Voice的企业, 仅在我们正式发布后的几周内。 

围绕DeepL Voice的热潮表明,语音翻译领域正迎来一个突破性时刻。能够实时解码并翻译人们所说的话,这使我们为国际企业创造的价值倍增。它改变了团队协作的方式,建立了更牢固的关系,并确保不同想法和观点始终得到充分体现。 

迄今为止我们取得的进展,已经对组织运作方式产生了重大影响。更多精彩即将呈现!

分享