Vad gör översättning av tal unik – och hur förståelsen av detta kan bryta ner de mest utmanande språkbarriärerna

Människor talar inte på samma sätt som de skriver. De upplever inte heller muntliga konversationer på samma sätt som de upplever att läsa ett e-postmeddelande eller en artikel. Vår förmåga att förstå varandra i samtalets ögonblick – att sammanföra alla former av verbal och icke-verbal kommunikation för att omedelbart förstå vad någon menar – är en balansakt inom mänskligt uttryck. När man tar ett steg tillbaka och funderar över vad som händer i en konversation är det fantastiskt hur mycket information som förmedlas så snabbt. 

När man ställer in uppgiften att översätta muntliga interaktioner i realtid, som DeepL har gjort med vår ny DeepL Voice-lösningen, upptäcker du alla möjliga fascinerande insikter om vad som skiljer översättning av talat språk från översättning av text. I det här inlägget kommer jag att dela med mig av några av dessa insikter och förklara hur vi använder dem för att förändra upplevelsen av möten och samtal.

Utmaningarna med att översätta tal i realtid och hur vi övervann dem

Omedelbar, konversationsbaserad kommunikation är något grundläggande mänskligt, och det är extremt svårt för tekniken att efterlikna – även en så avancerad teknik som AI. Om du vill skapa lösningar för företag som kan hjälpa människor att följa och delta i konversationer på flera språk måste du börja med att skaffa dig en djup förståelse för de utmaningar som detta innebär.

Dessa utmaningar inkluderar att efterlikna människans förmåga att förutse vad andra säger innan de har sagt det. När du översätter tal i livesituationer måste du också förutse hur någons ord bäst kan uttryckas på ett annat språk. Det är dock viktigt att du gör detta innan du vet säkert hur den ursprungliga meningen kommer att sluta, för att undvika långa tidsfördröjningar. Utmaningen här är att det som verkar vara en korrekt översättning av några ord kan visa sig vara en felaktig översättning när individen avslutar sin mening. 

När vi började utveckla DeepL Voice visste vi att högkvalitativ liveöversättning av tal inte kunde uppnås enbart med hjälp av teknik. Det beror på ett djupt intresse för och förståelse av de olika sätt som språk fungerar på. Därför samlade vi experter inom lingvistik med inriktning på muntliga konversationer och utnyttjade DeepL:s kraftfulla kontextuella förståelse för hur olika språk fungerar. Vi har också samarbetat med företag för att utforska deras prioriteringar och vilken typ av översättning av tal som skapar mest värde för dem.

Den enorma skillnad som en sekund kan göra

En av de första insikterna vi lärde oss var att timing är A och O när det gäller realtidsöversättning av ett möte eller en konversation. Om du kan komma nära talhastigheten – visa översättningen av en mening innan talaren har avslutat den – kan du i hög grad påverka hur inkluderande dessa möten kan vara. 

Som Christine Aubry, internationell koordinator för den global global konditoritillverkaren Brioche Pasquier, förklarade i DeepL Dialogues, gör snabbare översättningar att människor går från passivt till aktivt deltagande. I stället för att kämpa för att hänga med i vad andra säger på ett annat språk, känner de sig helt uppdaterade. Precis som en talare av sitt modersmålspråk har de möjlighet att komma med inlägg, forma konversationen och delta aktivt. En sekund eller så gör en enorm skillnad.

Hastighet är därför en högsta prioritet vid översättning av tal i realtid. Men hastigheten måste balanseras mot andra prioriteringar som också har stor inverkan på människors upplevelse. Översättningarna måste vara så exakta som möjligt för att undvika missförstånd och förvirring. Och där det är möjligt måste översättningarna minimera det ”flimmer” som uppstår när tidigare översatt text måste korrigeras på grund av att betydelsen har ändrats. Ju lägre frekvensen för detta flimmer är, desto lättare är det för någon att följa en konversation på ett naturligt sätt.

Hur språket ändras när människor pratar, inte skriver

För att översätta talat språk korrekt är det viktigt att förstå de många skillnaderna mellan mönstren i skriftspråket och rytmen i talet. Till exempel är sättet människor talar på mycket mer individ och mindre konsekvent än sättet de skriver på. De använder distinkta uttryck och vardagliga uttryck som kan härröra både från regionala dialekter och från deras speciella personlighet eller självbild. Dessutom konstruerar och korrigerar människor meningar medan de talar, vilket leder till osmidigheter där en grammatiskt felaktig term omedelbart följs av en annan, mer korrekt term. Att återge dessa ordagrant i översättningen är inte till någon hjälp för någon som försöker förstå innebörden. 

Under samtal yttrar människor också korta bekräftelser – såsom ”uh-huh” – för att försäkra talaren om att de förstår eller håller med om vad som sägs. Dessa underlättar själva samtalsflödet, men gör översättningarna otydliga för personer som försöker följa med på ett annat språk. Det är bra att filtrera bort dessa element från det talade språket i en översättning.

Optimering för realtidsöversättning

Utmaningen blir ännu mer intressant när man tänker på att en plattform för realtidsöversättning inte översätter hela meningar. Den måste översätta en mening medan den uttalas, när den slutgiltiga betydelsen av meningen ännu inte är klar. Detta kräver att vi optimerar översättningarna på ett något annorlunda sätt. Vi vill inte bara ha den mest exakta översättningen, utan en exakt översättning som är tillräckligt flexibel för att kunna införliva ny information som kan ändra innebörden av det som sägs.

Här är ett exempel: Tänk dig att vi översätter ett virtuellt möte där en av deltagarna talar Engelska och en av de andra deltagarna följer vad de säger med undertexter på Tyska. Vår person som talar Engelska avbryter samtalet och säger: ”Jag har hittat det.” Om vi antar att detta är en fullständig mening, skulle den bästa möjliga Tyska översättningen vara: ”Ich habe es gefunden.” Eftersom det här är ett direktsänt tal kan vi dock inte vara säkra på om meningen är fullständig eller inte.

Ett bättre alternativ i detta fall skulle kunna vara att använda en översättning som ”Ich fand es” istället. Varför? När den engelsktalande personen fortsätter med att säga ”I found it frustrating” (jag tyckte det var frustrerande) passar översättningen ”ich fand es” perfekt för att helt enkelt lägga till ordet ”frustrierend”. Om de tre första orden översattes till ”Ich habe es gefunden” skulle hela översättningen behöva revideras. Det är den typen av större "flimmer" som hindrar en från att intuitivt följa en konversation, och som DeepL strävar efter att minimera så långt det är möjligt.

Översättning av tal i realtid kräver en rad sådana kontextuella bedömningar som görs bäst när tekniken styrs av mänsklig expertis. Denna expertis omfattar insikter om var olika språk sannolikt placerar de verb som är avgörande för en menings betydelse. Om de kommer i början (som på franska och spanska) är det möjligt att visa en översättning snabbare än när de kommer i slutet. Allt detta hjälper systemet att pausa tillräckligt länge för att vara korrekt, men inte så länge att det fördröjer förståelsen i onödan.

Hitta den perfekta balansen genom förståelse av språk

Denna kombination av mänsklig språkexpertis och högprecis översättning gör att DeepL Voice redan idag kan göra stor skillnad för internationella företags möten och konversationer. Dessa inkluderar NEC Corporation, som blev det första företaget att fullt ut driftsätta DeepL Voice, bara några veckor efter vår officiella lansering. 

Spänningen kring DeepL Voice speglar det faktum att detta är ett banbrytande ögonblick för översättning av tal. Förmågan att avkoda och översätta vad människor säger, medan de säger det, mångdubblar det värde vi kan skapa för internationella företag. Det förändrar sättet som team kan samarbeta på, bygger starkare relationer och säkerställer att olika idéer och perspektiv alltid inkluderas. 

De framsteg vi hittills har gjort har redan haft stor inverkan på hur organisationer arbetar. Det kommer mycket mer!

Dela