Co činí překlad řeči jedinečným — a jak jeho pochopení může prolomit i ty nejnáročnější jazykové bariéry

Lidé nemluví stejným způsobem, jakým píší. Ani mluvené rozhovory nevnímají stejným způsobem jako čtení e-mailu nebo článku. Naše schopnost porozumět si navzájem v okamžiku mluvení – spojit všechny druhy verbální a neverbální komunikace, abychom okamžitě pochopili, co někdo myslí – je jako chůze po laně v oblasti lidské komunikace. Když se na chvíli zastavíte a zamyslíte se nad tím, co se děje během konverzace, je úžasné, kolik informací se dokáže tak rychle sdělit. 

Když si nastavíte úkol překládat mluvené interakce v reálném čase, jak to udělala společnost DeepL s naším novým řešením DeepL Voice, odhalíte řadu fascinujících poznatků o tom, v čem se překlad mluveného jazyka liší od překladu textu. V tomto příspěvku se podělím o některé z těchto poznatků a vysvětlím, jak je využíváme k proměně zážitků z jednání a rozhovorů.

Výzvy spojené s překládáním řeči v reálném čase a jak jsme je překonali

Okamžitá konverzační komunikace je zásadně lidská a je velmi obtížné ji napodobit pomocí technologie – dokonce i tak pokročilé, jako je AAI. Pokud chcete vytvářet řešení pro obchodní firmy, která lidem pomohou sledovat a účastnit se konverzací ve více jazycích, musíte nejprve důkladně porozumět souvisejícím výzvám.

Mezi tyto výzvy patří napodobení lidské schopnosti předvídat, co lidé řeknou, ještě než to dokončí. Při překladu řeči v živých situacích musíte také předvídat, jak lze slova dané osoby nejlépe vyjádřit v jiném jazyce. Je však zásadní, abyste tak učinili ještě předtím, než budete s jistotou vědět, jak bude původní věta končit, abyste se vyhnuli dlouhým časovým prodlevám. Problémem zde je, že to, co se jeví jako přesný překlad několika slov, se může ukázat jako nepřesný překlad, jakmile osobní dokončí větu. 

Když jsme nastavili vývoj DeepL Voice, věděli jsme, že vysoce kvalitní živý překlad řeči nelze dosáhnout pouze pomocí technologie. Záleží na hlubokém zájmu o různé způsoby fungování jazyka a jejich pochopení. Proto jsme spojili odborníky na lingvistiku v oblasti mluvené konverzace a využili výkonné kontextové porozumění DeepL tomu, jak fungují různé jazyky. Spolupracovali jsme také s podniky, abychom zjistili jejich priority a zkušenosti s překlady řeči, které pro ně mají největší hodnotu.

Jak velký rozdíl může udělat jedna vteřina

Jedním z prvních poznatků, které jsme zjistili, je, že při překladu schůzky nebo konverzace v reálném čase je načasování rozhodující. Pokud se vám podaří přiblížit se rychlosti řeči – zobrazit překlad věty v okamžiku, kdy ji mluvčí dokončí –, můžete výrazně ovlivnit, jak inkluzivní tyto schůzky mohou být. 

Jak vysvětlila Christine Aubry, mezinárodní koordinátorka globálního výrobce cukrářských výrobků Brioche Pasquier, v DeepL Dialogues, rychlejší překlady mění způsob, jakým se lidé účastní, z pasivního na aktivní. Místo toho, aby se snažili držet krok s tím, co ostatní říkají v jiném jazyce, cítí se plně v obraze. Stejně jako mluvčí jazyka mají možnost přerušovat, utvářet konverzaci a aktivně se účastnit. Sekunda nebo dvě znamenají obrovský rozdíl.

Rychlost je proto při překladu řeči v reálném čase nejvyšší prioritou. Rychlost však musí být vyvážena jinými prioritami, které mají také velký vliv na zkušenosti lidí. Překlady musí být co nejpřesnější, aby nedocházelo k nedorozuměním a záměnám. A pokud je to možné, překlady musí minimalizovat „blikání“, ke kterému dochází, když je třeba opravit přeložený text, protože se změnil jeho význam. Čím nižší je frekvence tohoto blikání, tím snazší je pro člověka přirozeně sledovat konverzaci.

Jak se jazyk změní, když lidé mluví, a ne píšou

Aby bylo možné přesně překládat živou řeč, je důležité pochopit mnoho rozdílů mezi vzory jazyka a rytmem řeči. Například způsob, jakým lidé mluví, je mnohem osobnější a méně konzistentní než způsob, jakým píší. Používají specifické obraty a hovorové výrazy, které mohou pocházet jak z regionálních dialektů, tak z jejich osobnosti nebo sebevědomí. Kromě toho lidé při mluvení konstruují a opravují věty, což vede k nesouvislostem, kdy jeden gramaticky nesprávný pojem okamžitě následuje jiný, správnější. Doslovný překlad těchto výrazů není pro někoho, kdo se snaží pochopit jejich význam, nijak užitečný. 

Během konverzace lidé také vyslovují krátká potvrzení – například „uh-huh“ – aby ujistili mluvčího, že rozumí tomu, co říká, nebo s ním souhlasí. To pomáhá plynulosti konverzace, ale ztěžuje překlad pro lidi, kteří se snaží sledovat konverzaci v jiném jazyce. Je užitečné tyto prvky mluveného jazyka z překladu odfiltrovat.

Optimalizace pro překlad v reálném čase

Výzva se stává ještě zajímavější, když vezmete v úvahu, že platforma pro překlad v reálném čase nepřekládá celé věty. Musí překládat větu v okamžiku, kdy je vyslovována, tedy v době, kdy její konečný význam ještě není jasný. To vyžaduje, abychom optimalizovali překlady trochu jiným způsobem. Nechceme jen co nejpřesnější překlad, ale přesný překlad, který je dostatečně flexibilní, aby zahrnoval nové informace, které mohou změnit směr toho, co se říká.

Zde je příklad: Představte si, že překládáme virtuální schůzku, na které jeden z účastníků mluví angličtinou a jeden z ostatních účastníků sleduje jeho slova pomocí titulků v němčině. Náš kolega, který hovoří angličtinu, přeruší konverzaci a řekne: „Našel jsem to.“ Pokud předpokládáme, že se jedná o úplnou větu, nejlepším možným překladem do němčina by bylo „Ich habe es gefunden“. Jelikož se však jedná o živou řeč, nemůžeme si být jisti, zda je věta úplná.

V tomto případě by lepší volbou mohlo být použití překladu jako „Ich fand es“. Proč? Protože když angličtina mluvící osoba pokračuje slovy „I found it frustrating“ (Bylo to pro mě frustrující), překlad „ich fand es“ je ideální pro jednoduché přidání slova „frustrierend“. Pokud by první tři slova byla přeložena jako „Ich habe es gefunden“, bylo by nutné revidovat celý překlad. To je typ významného „kolísání“, které brání intuitivnímu sledování konverzace a které se DeepL snaží minimalizovat, kdykoli je to možné.

Přesný překlad řeči v reálném čase zahrnuje širokou škálu kontextových úsudků, které lze nejlépe provést, když je technologie vedena lidskou odborností. Tato odbornost zahrnuje poznatky o tom, kde se v různých jazycích pravděpodobně nacházejí slovesa, která jsou klíčová pro význam věty. Pokud se objeví na začátku (jako ve francouzštině a španělštině), je možné zobrazit překlad rychleji než v případě, kdy se objeví na konci. To vše pomáhá systému pozastavit se na dobu nezbytně nutnou k zajištění přesnosti, ale ne tak dlouho, aby zbytečně zdržovalo porozumění.

Nalezení optimálního bodu prostřednictvím porozumění specifickým vlastnostem jazyka

Díky kombinaci odborných znalostí v oblasti lingvistiky a vysoce přesného překladu již DeepL Voice výrazně zlepšuje zážitek z jednání a konverzací v mezinárodních podnicích. Mezi nimi je i společnost NEC Corporation, která se stala první společností, která plně nasadila DeepL Voice, jen několik týdnů po našem oficiálním spuštění. 

Vzrušení kolem DeepL Voice odráží skutečnost, že se jedná o průlomový okamžik v oblasti překladu řeči. Schopnost dekódovat a překládat to, co lidé říkají, zatímco to říkají, znásobuje hodnotu, kterou můžeme vytvořit pro mezinárodní obchodní firmy. Mění způsob, jakým týmy spolupracují, buduje silnější vztahy a zajišťuje, že jsou vždy zahrnuty různé nápady a pohledy. 

Dosavadní pokroky již mají významný vliv na způsob fungování organizací. Ještě toho bude mnohem víc!

Share