Was Sprachübersetzung einzigartig macht – und wie ihr Verständnis selbst die anspruchsvollsten Barrieren der Sprache überwinden kann

Menschen sprechen nicht auf dieselbe Weise, wie sie schreiben. Sie erleben gesprochene Gespräche auch nicht auf dieselbe Weise, wie sie das Lesen einer E‑Mail oder eines Artikels erleben. Unsere Fähigkeit, einander im Moment des Sprechens zu verstehen – indem wir alle Arten der verbalen und nonverbalen Kommunikation zusammenführen, um sofort zu erfassen, was jemand meint – ist die anspruchsvolle Kunst der menschlichen Ausdrucksweise. Wenn man einen Schritt zurücktritt und überlegt, was in einem Gespräch geschieht, ist es bemerkenswert, wie viele Informationen in kurzer Zeit vermittelt werden. 

Wenn Sie sich die Aufgabe stellen, gesprochene Interaktionen in Echtzeit zu übersetzen, wie DeepL es mit unserer neue DeepL Voice-Lösung, gewinnen Sie vielfältige Einblicke in die Unterschiede zwischen der Übersetzung gesprochener Sprache und der Übersetzung von Texten. In diesem Beitrag werde ich einige dieser Erkenntnisse vorstellen und erläutern, wie wir sie nutzen, um die Erfahrung von Meetings und Gesprächen zu verbessern.

Die Herausforderungen bei der Übersetzung von Echtzeit-Sprache und wie wir diese bewältigt haben

Sofortige, dialogorientierte Kommunikation ist ein grundlegend menschliches Merkmal und für Technologie äußerst schwer nachzubilden – selbst für eine so fortschrittliche Technologie wie KI. Wenn Sie Lösungen für geschäftliche Unternehmen entwickeln möchten, die es Menschen ermöglichen, Gesprächen in mehreren Sprachen zu folgen und daran teilzunehmen, müssen Sie zunächst ein tiefgreifendes Verständnis für die damit verbundenen Herausforderungen entwickeln.

Zu diesen Herausforderungen gehört es, die menschliche Fähigkeit nachzuahmen, zu antizipieren, was Menschen sagen, bevor sie es ausgesprochen haben. Wenn Sie Sprache in Live-Situationen übersetzen, müssen Sie auch vorhersehen, wie die Worte einer Person am besten in einer anderen Sprache ausgedrückt werden können. Entscheidend ist jedoch, dass Sie dies tun, bevor Sie mit Sicherheit wissen, wie der ursprüngliche Satz enden wird, um zeitliche Verzögerungen zu vermeiden. Die Herausforderung besteht darin, dass eine scheinbar korrekte Übersetzung einiger Wörter sich als ungenau erweisen kann, sobald die Person ihren Satz beendet hat. 

Als wir mit der Entwicklung von DeepL Voice begannen, waren wir uns bewusst, dass eine hochwertige Live-Übersetzung von Sprache nicht allein durch Technologie erreicht werden kann. Dies hängt von einem tiefen Interesse an und Verständnis für die unterschiedlichen Funktionsweisen von Sprache ab. Daher haben wir Experten für Sprachwissenschaft im Bereich der gesprochenen Sprache zusammengebracht und das leistungsstarke Kontextverständnis von DeepL hinsichtlich der Funktionsweise verschiedener Sprachen genutzt. Wir haben auch mit geschäftlichen Partnern zusammengearbeitet, um ihre Prioritäten und die Erfahrungen mit Sprachübersetzungen zu ermitteln, die für sie den größten Mehrwert schaffen.

Der erhebliche Unterschied, den eine Sekunde ausmachen kann

Eine der ersten Erkenntnisse, die wir gewonnen haben, ist, dass das Timing bei der Echtzeitübersetzung einer Besprechung oder eines Gesprächs von entscheidender Bedeutung ist. Wenn Sie sich der Geschwindigkeit der Sprache annähern können – indem Sie die Übersetzung eines Satzes anzeigen, sobald der Sprecher ihn beendet hat –, können Sie einen erheblichen Einfluss darauf nehmen, wie inklusiv diese Besprechungen sein können. 

Christine Aubry, internationale Koordinatorin des globalen Patisserie-Herstellers Brioche Pasquier, bei DeepL Dialogues, bewirken schnellere Übersetzungen einen Wechsel der Menschen von passiver zu aktiver Beteiligung. Anstatt sich anzustrengen, um mit dem, was andere in einer anderen Sprache sagen, Schritt zu halten, fühlen sie sich vollständig auf dem Laufenden. Ähnlich wie ein Muttersprachler der Sprache haben sie die Möglichkeit, sich einzubringen, das Gespräch zu gestalten und aktiv daran teilzunehmen. Eine Sekunde kann einen erheblichen Unterschied ausmachen.

Geschwindigkeit hat daher bei der Übersetzung von Echtzeit-Sprache höchste Priorität. Geschwindigkeit muss jedoch gegen andere Prioritäten abgewogen werden, die ebenfalls einen erheblichen Einfluss auf die Benutzererfahrung haben. Übersetzungen müssen so genau wie möglich sein, um Missverständnisse und Verwirrung zu vermeiden. Wenn möglich, sollten Übersetzungen das „Flackern“ minimieren, das auftritt, wenn zuvor übersetzter Text korrigiert werden muss, weil sich die Bedeutung geändert hat. Je geringer die Frequenz dieses Flackerns ist, desto einfacher ist es für jemanden, einem Gespräch auf natürliche Weise zu folgen.

Wie Sprache sich ändert, wenn Menschen sprechen und nicht tippen

Um gesprochene Sprache präzise zu übersetzen, ist es von Bedeutung, die zahlreichen Unterschiede zwischen den Mustern der Sprache und den Rhythmen der gesprochenen Sprache zu verstehen. Beispielsweise ist die Art und Weise, wie Menschen sprechen, wesentlich individueller und weniger einheitlich als die Art und Weise, wie sie schreiben. Sie verwenden ausgeprägte Redewendungen und Umgangssprache, die sowohl aus regionalen Dialekten als auch aus ihrer besonderen Persönlichkeit oder ihrem Selbstbild stammen können. Darüber hinaus konstruieren und korrigieren Menschen Sätze während des Sprechens, was zu Unflüssigkeiten führt, bei denen auf einen grammatikalisch falschen Begriff sofort ein anderer, korrekterer folgt. Eine wörtliche Übersetzung dieser Ausdrücke ist für jemanden, der die Bedeutung verstehen möchte, nicht hilfreich. 

Während Gesprächen äußern Menschen auch kurze Bestätigungen – wie beispielsweise „uh-huh“ –, um ihren Gesprächspartnern zu signalisieren, dass sie verstehen oder mit dem Gesagten übereinstimmen. Diese erleichtern den Gesprächsfluss, können jedoch die Übersetzung für Personen erschweren, die dem Gespräch in einer anderen Sprache folgen möchten. Es ist sinnvoll, diese Elemente der Spracheingabe aus einer Übersetzung herauszufiltern.

Optimierung für Echtzeitübersetzungen

Die Herausforderung wird noch interessanter, wenn man bedenkt, dass eine Echtzeit-Übersetzungsplattform keine vollständigen Sätze übersetzt. Es ist erforderlich, einen Satz zu übersetzen, während er gesprochen wird, wenn die endgültige Bedeutung dieses Satzes noch nicht klar ist. Dies erfordert, dass wir die Übersetzungen auf eine etwas andere Weise optimieren. Wir wünschen uns nicht nur die genaueste Übersetzung, sondern eine genaue Übersetzung, die flexibel genug ist, um neue Informationen zu integrieren, die die Richtung des Gesagten ändern könnten.

Hier ein Beispiel: Stellen Sie sich vor, wir übersetzen ein virtuelles Meeting, in dem einer der Teilnehmer Englisch spricht und einer der anderen Teilnehmer dessen Ausführungen anhand von Untertiteln in Deutsch verfolgt. Unser Sprecher, der Englisch spricht, unterbricht das Gespräch und sagt: „Ich habe es gefunden.“ Wenn wir davon ausgehen, dass es sich hierbei um einen vollständigen Satz handelt, wäre die bestmögliche Übersetzung ins Deutsche: „Ich habe es gefunden.“ Da es sich jedoch um eine Live-Rede handelt, können wir nicht mit Sicherheit sagen, ob der Satz vollständig ist oder nicht.

In diesem Fall könnte es vorteilhafter sein, eine Übersetzung wie „Ich fand es“ zu verwenden. Warum Denn wenn der Sprecher Englisch fortfährt: „Ich fand es frustrierend“, kann die Übersetzung „ich fand es“ einfach durch Hinzufügen des Wortes „frustrierend“ ergänzt werden . Wenn die ersten drei Wörter mit „Ich habe es gefunden“ übersetzt würden , müsste die gesamte Übersetzung überarbeitet werden. Dies ist die Art von erheblichen „Flackern“, die das intuitive Verfolgen eines Gesprächs beeinträchtigen und die DeepL nach Möglichkeit minimieren möchte.

Eine präzise Sprachübersetzung in Echtzeit erfordert eine Vielzahl solcher kontextbezogener Entscheidungen, die am besten getroffen werden, wenn die Technologie durch menschliches Fachwissen unterstützt wird. Dieses Fachwissen umfasst Erkenntnisse darüber, wo verschiedene Sprachen die Verben positionieren, die für die Bedeutung eines Satzes entscheidend sind. Wenn sie am Anfang stehen (wie im Französischen und Spanischen), ist es möglich, eine Übersetzung schneller anzuzeigen, als wenn sie am Ende stehen. All dies trägt dazu bei, dass ein System gerade so lange pausiert, wie es für die Genauigkeit erforderlich ist, jedoch nicht so lange, dass das Verständnis unnötig verzögert wird.

Den optimalen Ansatzpunkt durch spezifisches Verständnis der Sprache finden

Durch die Kombination von menschlicher Sprachkompetenz mit hochpräzisen Übersetzungen trägt DeepL Voice bereits jetzt entscheidend dazu bei, die Qualität von Besprechungen und Gesprächen für internationale Unternehmen zu verbessern. Dazu gehört die NEC Corporation, die als erstes Unternehmen DeepL Voice vollständig implementiert hat. Erstes Unternehmen, das DeepL Voice vollständig bereitstellte, nur wenige Wochen nach unserer offiziellen Markteinführung 

Die Begeisterung um DeepL Voice spiegelt wider, dass dies ein bahnbrechender Moment für die Sprachübersetzung ist. Die Fähigkeit, das Gesagte zu entschlüsseln und zu übersetzen, während es ausgesprochen wird, erhöht den Mehrwert, den wir für internationale Geschäfte schaffen können. Es verändert die Art und Weise, wie Teams zusammenarbeiten können, stärkt Beziehungen und stellt sicher, dass unterschiedliche Ideen und Perspektiven stets berücksichtigt werden. 

Die Fortschritte, die wir bisher erzielt haben, haben bereits erhebliche Auswirkungen auf die Arbeitsweise von Unternehmen. Es gibt noch viel mehr zu entdecken.

Teilen