音声のテキスト化が他と異なる点とは何か――そしてその仕組みを理解することで、最も困難な言語の壁をいかに打破できるか

人々は書くのと同じように話しません。また、メールや記事を読むのと同じように、口頭での会話を体験することもありません。話し合いの瞬間に互いを理解する能力——あらゆる言語的・非言語的コミュニケーションを統合し、相手の意図を瞬時に把握する能力——は、人間の表現における綱渡りのようなものです。一歩引いて会話の中で何が起きているのかを考えてみると、驚くほど多くの情報が瞬時に伝えられていることに気づきます。 

設定する: DeepLが当社の 新しいDeepL Voiceソリューションのように、音声の言語の翻訳がテキストの翻訳と異なる点について、様々な興味深い知見が明らかになります。本記事では、それらの知見の一部をご紹介するとともに、それらをどのように活用して会議や会話の体験を変革しているかについてご説明いたします。

リアルタイム音声の翻訳における課題と、その克服方法について

即座の会話的なコミュニケーションは、本質的に人間的なものであり、技術がこれを再現することは極めて困難です。AIのような高度な技術であっても同様です。複数の言語で会話に参加し、その流れを把握できるようなビジネス向けソリューションをご提供したいとお考えでしたら、まずその課題について深く理解することから始めなければなりません。

それらの課題には、人が話し終える前に何を言おうとしているのかを予測するという人間の技能を再現することも含まれます。生中継の場面で通訳を行う際には、相手の言葉が別の言語でどのように表現するのが最適かを予測する必要もあります。ただし重要なのは、元の文がどのように終わるかを確実に知る前にこれを行う必要があるということです。そうすることで、長い時間差が生じるのを避けるためです。ここでの課題は、個人が文を完成させた時点で、一見正確に見える数語の翻訳が、実は不正確な翻訳であったことが判明する可能性があるという点です。 

DeepL Voiceの開発に着手した際、音声の高品質なリアルタイム翻訳は技術だけでは実現できないことを認識しておりました。それは、言語が機能する様々な方法に対する深い関心と理解にかかっています。そこで、会話における言語学の専門家を集め、DeepLが持つ、異なる言語の仕組みに関する強力な文脈理解を活用いたしました。また、ビジネスとパートナーシップを築き、その優先事項や、最も価値を生み出す音声のテキスト化の体験について調査いたしました。

たった一秒がもたらす大きな違い

私たちが最初に学んだ知見の一つは、会議や会話のリアルタイム翻訳においては、タイミングが最も重要であるということです。もし会話の速度に近づけることができれば——話者が文を終えるまでにその翻訳を表示することができれば——会議の参加のしやすさに大きく貢献できるでしょう。 

グローバルなパティスリー製造業の企業、ブリオッシュ・パスキエの国際コーディネーター、クリスティン・オーブリー氏が DeepL Dialogues で説明したように、翻訳が速くなると、人々のモードは受動的な参加から能動的な参加へと切り替わります。他の方が話されている言語の内容を、別の言語で必死に理解しようとするのではなく、十分に理解できていると感じております。言語話者のように、彼らは会話に割り込み、会話を形作り、積極的に参加する機会を得られます。ほんの1秒ほどの差が、大きな違いを生みます。

したがって、リアルタイム音声の翻訳においては、速度が最優先事項となります。しかし、スピードは、人々の体験に大きな影響を与える他の優先事項とのバランスを取る必要があります。翻訳は、誤解や混乱を避けるため、可能な限り正確に行う必要があります。可能な限り、翻訳においては、意味が変更されたために以前に翻訳されたテキストを修正する必要が生じた際に発生する「ちらつき」を最小限に抑える必要があります。このちらつきの頻度が低いほど、会話の内容を自然な形で理解しやすくなります。

人々が話しているとき、タイプしているときとはどのように言語が変更するのでしょうか。

生きた言葉を正確に翻訳するためには、言語のパターンと話し言葉のリズムの間に存在する多くの違いを理解することが重要です。例えば、人々の話し方は、書き言葉に比べてはるかに個人で一貫性がありません。彼らは、地域の方言に由来するものもあれば、また彼らの特定の性格や自己イメージに由来するものもある、独特の言い回しや口語表現を用います。さらに、人は話す際に文を構築し修正するため、文法的に誤った用語の直後に、より正しい用語が続くという不流暢さが生じることがあります。これらの内容を文字通り翻訳しても、意味を理解しようとする方にとって有益とは言えません。 

会話中、人々はまた 「ええ」といった短い肯定の言葉を口にします。これは話し手に対して、自分の発言を理解していることや同意していることを伝えるためです。これらは会話の流れそのものを助けますが、別の言語で理解しようとする方々にとっては翻訳を煩雑にしてしまいます。音声の言語のこうした要素を翻訳から取り除くことは有益です。

リアルタイム翻訳の最適化

リアルタイム翻訳プラットフォームが完全な文を翻訳しているわけではないことを考慮すると、この課題はさらに興味深いものとなります。その文が話されている最中に翻訳する必要があり、その文の最終的な意味がまだ明確でない場合でも対応しなければなりません。このため、翻訳の最適化を少し異なる方法で実施する必要があります。私たちが求めているのは、単に最も正確な翻訳だけではなく、話の方向性を変更する可能性のある新たな情報を柔軟に取り込める、正確な翻訳です。

例を挙げますと:仮想会議の通訳を行っていると想像してください。参加者の一人が英語で話しており、別の参加者がその内容をドイツ語の字幕で追っている状況です。英語を話す方が会話を遮り、「見つけました」とおっしゃいました。さて、これを完全な文であると仮定した場合、最も適切なドイツ語訳は「Ich habe es gefunden.」となります。ただし、これは生の発言ですので、文が完結しているかどうかは確信が持てません。

この場合、より良い選択肢としては、「Ich fand es」のような訳語を使用することが考えられます。言語AIはなぜなら、英語話者が続けて「私はそれがイライラすると思いました」と言う場合、 「ich fand es」という訳語は、単に「frustrierend」という単語を追加するのに最適な位置にあるからです。もし最初の三語を「Ich habe es gefunden」と訳した場合、翻訳全体を見直す必要が生じます。そのような大きな「ちらつき」こそが、会話を直感的に追う妨げとなるものであり、DeepLは可能な限りこれを最小限に抑えることを目指しております。

正確なリアルタイム音声のテキスト化には、こうした文脈判断が幅広く必要であり、技術が人間の専門知識によって導かれる場合に最も適切に行われます。その専門知識には、文の意味にとって重要な動詞が、各言語においてどのような位置に配置される傾向があるかについての洞察が含まれます。文頭にある場合(フランス語やスペイン語のように)、文末にある場合よりも翻訳を素早く表示することが可能です。これらすべてが、システムが正確さを保つのに十分な時間だけ一時停止することを可能にしますが、理解を不必要に遅らせるほど長くは停止しません。

言語固有の理解を通じて最適なバランスを見つけること

人間の言語学の専門知識と高精度な翻訳技術を組み合わせたDeepL Voiceは、すでに国際的なビジネスにおける会議や会話の体験に大きな変化をもたらしています。これには、DeepL Voiceを初めて完全に導入した企業となった DeepL Voiceを完全デプロイする最初の企業となりました。 正式リリースからわずか数週間後のことです。 

DeepL Voiceへの注目は、音声のテキスト化にとって画期的な瞬間であることを反映しております。人々が話している内容を、その場で解読し翻訳する能力は、国際的なビジネスにおいて私たちが創出できる価値を飛躍的に高めます。チームの協働方法を変革し、より強固な関係を構築するとともに、様々なアイデアや視点が常に反映されることを保証します。 

これまで達成した進歩は、すでに組織の運営方法に大きな変化をもたらしています。まだまだ続きます!

共有する