Wat spraakbericht vertalen uniek maakt — en hoe het begrijpen ervan de meest uitdagende taalbarrières kan doorbreken

Mensen spreken niet op dezelfde manier als ze schrijven. Zij ervaren gesproken gesprekken ook niet op dezelfde manier als het lezen van een e-mail of een artikel. Ons vermogen om elkaar te begrijpen op het moment dat we spreken – door alle vormen van verbale en non-verbale communicatie samen te brengen om onmiddellijk te begrijpen wat iemand bedoelt – is de kunst van menselijke expressie. Wanneer men even afstand neemt en nadenkt over wat er tijdens een gesprek gebeurt, is het opmerkelijk hoeveel informatie er in korte tijd wordt overgebracht.
Wanneer u zich instelt op het vertalen van gesproken interacties terwijl ze plaatsvinden, zoals DeepL heeft gedaan met onze nieuwe DeepL Voice-oplossing, ontdekt u allerlei fascinerende inzichten in wat het vertalen van gesproken taal anders maakt dan het vertalen van tekst. In dit bericht zal ik enkele van deze inzichten delen en toelichten hoe we deze gebruiken om de ervaring van vergaderingen en gesprekken te transformeren.
De uitdagingen van het vertalen van realtime spraak en hoe we deze hebben overwonnen
Directe, conversatiegerichte communicatie is een fundamenteel menselijk kenmerk en het is uiterst moeilijk voor technologie om dit na te bootsen, zelfs voor technologie die zo geavanceerd is als AI. Indien u oplossingen voor bedrijven wilt ontwikkelen die mensen helpen om gesprekken in meerdere talen te volgen en eraan deel te nemen, dient u te beginnen met een grondig begrip van de uitdagingen die daarbij komen kijken.
Een van die uitdagingen is het nabootsen van het menselijke vermogen om te anticiperen op wat mensen zeggen voordat ze hun zin hebben afgemaakt. Wanneer u in live situaties spraak vertaalt, dient u ook te anticiperen op hoe iemands woorden het best in een andere taal kunnen worden uitgedrukt. Het is echter van cruciaal belang dat u dit doet voordat u zeker weet hoe de oorspronkelijke zin zal eindigen, om langdurige vertragingen te voorkomen. De uitdaging hier is dat wat een nauwkeurige vertaling van enkele woorden lijkt, een onnauwkeurige vertaling kan blijven te zijn zodra de individuele zin is voltooid.
Toen we begonnen met de ontwikkeling van DeepL Voice, waren we ons ervan bewust dat hoogwaardige livevertaling van spraak niet uitsluitend met technologie kon worden gerealiseerd. Het is afhankelijk van een diepgaande interesse in en begrip van de verschillende manieren waarop taal functioneert. Daarom hebben wij deskundigen op het gebied van taalkunde, met name op het gebied van gesproken conversaties, bijeengebracht en gebruikgemaakt van DeepL's krachtige contextuele begrip van hoe verschillende talen functioneren. We hebben ook samengewerkt met bedrijven om hun prioriteiten en de ervaring met spraakbericht vertalen te onderzoeken die voor hen de meeste waarde creëert.
Het aanzienlijke verschil dat een seconde kan maken
Een van de eerste inzichten die we hebben opgedaan, is dat timing van cruciaal belang is bij het realtime vertalen van een vergadering of een gesprek. Indien u de snelheid van spraak kunt benaderen — door de vertaling van een zin weer te geven op het moment dat de spreker deze heeft uitgesproken — dan kunt u een aanzienlijke invloed uitoefenen op de mate van inclusiviteit van die vergaderingen.
Zoals Christine Aubry, internationaal coördinator voor de internationale patisseriefabrikant Brioche Pasquier, in DeepL Dialogues, zorgen snellere vertalingen ervoor dat mensen van passieve naar actieve deelname overschakelen. In plaats van moeite te hebben om te volgen wat anderen in een andere taal zeggen, voelen zij zich volledig op de hoogte. Net als een moedertaal-spreker hebben zij de mogelijkheid om in te haken, het gesprek vorm te geven en actief deel te nemen. Een seconde kan een aanzienlijk verschil maken.
Snelheid is daarom van het grootste belang bij het vertalen van realtime spraak. Echter, snelheid moet worden afgewogen tegen andere prioriteiten die ook een grote invloed hebben op de ervaring van mensen. Vertalingen dienen zo nauwkeurig mogelijk te zijn om misverstanden en verwarring te voorkomen. Waar mogelijk moeten vertalingen het 'flikkeren' minimaliseren dat optreedt wanneer eerder vertaalde tekst moet worden gecorrigeerd omdat de betekenis is gewijzigd. Hoe lager de frequentie van deze flikkering, hoe gemakkelijker het voor iemand is om een gesprek op een natuurlijke manier te volgen.
Hoe taal wijzigt wanneer mensen spreken in plaats van typen
Om live spraak nauwkeurig te vertalen, is het van belang om de vele verschillen tussen de patronen van geschreven taal en het ritme van spraak te begrijpen. De manier waarop mensen spreken is bijvoorbeeld veel individueler en minder consistent dan de manier waarop zij schrijven. Zij gebruiken specifieke uitdrukkingen en spreektaal die zowel voortkomen uit regionale dialecten als uit hun specifieke persoonlijkheid of zelfbeeld. Bovendien construeren en corrigeren mensen zinnen terwijl ze spreken, wat leidt tot onvloeiendheden waarbij een grammaticaal onjuiste term onmiddellijk wordt gevolgd door een andere, meer correcte term. Het letterlijk weergeven van deze termen in een vertaling is niet bevorderlijk voor iemand die de betekenis probeert te begrijpen.
Tijdens gesprekken gebruiken mensen ook korte bevestigingen, zoals 'uh-huh', om de spreker te laten weten dat zij begrijpen of het eens zijn met wat er wordt gezegd. Deze dragen bij aan de vloeiendheid van het gesprek zelf, maar maken vertalingen voor mensen die het gesprek in een andere taal proberen te volgen, onoverzichtelijk. Het is nuttig om deze elementen van gesproken taal uit een vertaling te filteren.
Optimaliseren voor realtime vertaling
De uitdaging wordt nog interessanter wanneer men bedenkt dat een realtime vertaalplatform geen volledige zinnen vertaalt. Het is noodzakelijk om een zin te vertalen terwijl deze wordt uitgesproken, wanneer de uiteindelijke betekenis van die zin nog niet duidelijk is. Dit vereist dat wij vertalingen op een iets andere manier optimaliseren. Wij streven niet alleen naar de meest nauwkeurige vertaling, maar ook naar een nauwkeurige vertaling die flexibel genoeg is om nieuwe informatie te integreren die de richting van wat er wordt gezegd kan wijzigen.
Hier volgt een voorbeeld: Stel u voor dat wij een virtuele vergadering vertalen waarin een van de deelnemers Engels spreekt en een van de andere deelnemers volgt wat er gezegd wordt met ondertitel in het Duits. Onze Engels sprekende spreker onderbreekt het gesprek om te zeggen: "Ik heb het gevonden." Als we ervan uitgaan dat dit een volledige zin is, zou de meest geschikte Duitse vertaling zijn: "Ich habe es gefunden." Aangezien dit echter live spraak betreft, kunnen wij niet met zekerheid zeggen of de zin volledig is of niet.
In dit geval zou het wellicht beter zijn om een vertaling als "Ich fand es" te gebruiken. Waarom Omdat wanneer de Engels spreker vervolgt met "I found it frustrating" (ik vond het frustrerend), de vertaling "ich fand es" perfect gepositioneerd is om eenvoudigweg het woord "frustrierend" toe te voegen . Indien de eerste drie woorden vertaald zouden worden als "Ich habe es gefunden", zou de gehele vertaling herzien moeten worden. Dat is het soort grote "flikkering" dat het intuïtief volgen van een gesprek in de weg staat en dat DeepL waar mogelijk tot een minimum wil beperken.
Accurate, realtime spraakbericht vertalen vereist een breed scala aan contextuele beoordelingen die het best kunnen worden uitgevoerd wanneer de technologie wordt gestuurd door menselijke expertise. Die expertise omvat inzichten in waar verschillende talen de werkwoorden plaatsen die cruciaal zijn voor de betekenis van een zin. Indien ze aan het begin worden weergegeven (zoals in het Frans en Spaans), is het mogelijk om een vertaling sneller weer te geven dan wanneer ze aan het einde worden weergegeven. Dit alles draagt ertoe bij dat een systeem net lang genoeg pauzeert om nauwkeurig te zijn, maar niet zo lang dat het begrip onnodig wordt vertraagd.
Het optimale punt vinden door begrip van de taal
Deze combinatie van menselijke taalkundige expertise en uiterst nauwkeurige vertalingen zorgt er nu al voor dat DeepL Voice for Meetings en DeepL Voice for Conversations een aanzienlijk verschil maken in de ervaring van vergaderingen en gesprekken voor internationale bedrijven. Hieronder bevindt zich NEC Corporation, dat het eerste bedrijf werd dat DeepL Voice volledig implementeerde. eerste bedrijf dat DeepL Voice volledig uitrolde, slechts enkele weken na onze officiële lancering.
De opwinding rond DeepL Voice weerspiegelt het feit dat dit een baanbrekend moment is voor spraakbericht vertalen. Het vermogen om te begrijpen en te vertalen wat mensen zeggen terwijl ze het zeggen, vergroot de waarde die wij kunnen creëren voor internationale bedrijven aanzienlijk. Het transformeert de manier waarop teams kunnen samenwerken, bouwt sterkere relaties op en zorgt ervoor dat verschillende ideeën en perspectieven altijd worden meegenomen.
De vooruitgang die we tot nu toe hebben geboekt, heeft al een aanzienlijke invloed op de manier waarop organisaties processen uitvoeren. Er staat nog veel meer te gebeuren.