Co sprawia, że tłumaczenie mowy jest wyjątkowe — i w jaki sposób zrozumienie tego zjawiska może pomóc w pokonaniu najtrudniejszych barier językowych

Spis treści:
- Wyzwania związane z tłumaczeniem mowy w czasie rzeczywistym i sposoby ich pokonania
- Ogromna różnica, jaką może zrobić jedna sekunda
- Jak zmienić język, kiedy ludzie mówią, a nie piszą
- Optymalizacja pod kątem tłumaczenia w czasie rzeczywistym
- Znalezienie idealnego rozwiązania dzięki zrozumieniu specyfiki języka
Ludzie nie mówią tak samo, jak piszą. Nie odbieracie też rozmów ustnych w taki sam sposób, jak czytanie wiadomości e-mail lub artykułu. Nasza zdolność do wzajemnego zrozumienia w trakcie rozmowy — łączenie wszelkiego rodzaju komunikacji werbalnej i niewerbalnej w celu natychmiastowego uchwycenia znaczenia wypowiedzi drugiej osoby — jest prawdziwym wyczynem w dziedzinie ludzkiej ekspresji. Kiedy się zatrzymasz i zastanowisz nad tym, co dzieje się podczas rozmowy, zadziwiające jest, jak wiele informacji jest przekazywanych w tak krótkim czasie.
Kiedy ustawiasz sobie za zadanie tłumaczenie rozmów w czasie rzeczywistym, tak jak zrobiła to firma DeepL w przypadku naszego nowym rozwiązaniem DeepL Voice, odkrywasz wiele fascynujących spostrzeżeń dotyczących tego, co odróżnia tłumaczenie języka mówionego od tłumaczenia tekstu. W tym poście podzielę się niektórymi z tych spostrzeżeń i wyjaśnię, w jaki sposób wykorzystujemy je do zmiany charakteru spotkań i rozmów.
Wyzwania związane z tłumaczeniem mowy w czasie rzeczywistym i sposoby ich pokonania
Natychmiastowa komunikacja oparta na rozmowie jest czymś fundamentalnie ludzkim i niezwykle trudnym do odtworzenia przez technologię — nawet tak zaawansowaną jak AAI. Jeśli chcesz tworzyć rozwiązania dla biznesowych, które pomogą ludziom śledzić rozmowy prowadzone w wielu językach i brać w nich udział, musisz zacząć od dogłębnego zrozumienia związanych z tym wyzwań.
Wyzwania te obejmują naśladowanie ludzkiej umiejętności przewidywania tego, co ludzie mówią, zanim skończą mówić. Podczas tłumaczenia mowy na żywo musisz również przewidywać, jak najlepiej wyrazić słowa rozmówcy w innym języku. Co najważniejsze, musisz to zrobić, zanim dowiesz się na pewno, jak zakończy się oryginalne zdanie, aby uniknąć długich opóźnień. Wyzwaniem jest tutaj to, że to, co wydaje się być dokładnym tłumaczeniem kilku słów, może okazać się niedokładnym tłumaczeniem, gdy indywidualny dokończy zdanie.
Kiedy rozpoczęliśmy prace nad DeepL Voice, wiedzieliśmy, że wysokiej jakości tłumaczenie ustne na żywo nie może być osiągnięte wyłącznie dzięki technologii. Zależy to od głębokiego zainteresowania i zrozumienia różnych sposobów funkcjonowania języka. Zebraliśmy więc ekspertów w dziedzinie lingwistyki stosowanej w rozmowach ustnych i wykorzystaliśmy potężną wiedzę DeepL na temat kontekstowego rozumienia funkcjonowania różnych języków. Nawiązaliśmy również współpracę z firmami, aby poznać wasze priorytety i doświadczenia związane z tłumaczeniem mowy, które przynoszą wam największe korzyści.
Ogromna różnica, jaką może zrobić jedna sekunda
Jedną z pierwszych rzeczy, których się nauczyliśmy, jest to, że w przypadku tłumaczenia na żywo spotkania lub rozmowy najważniejsze jest wyczucie czasu. Jeśli uda ci się zbliżyć do prędkości mowy — wyświetlając tłumaczenie zdania w momencie, gdy mówca je kończy — możesz znacznie wpłynąć na to, jak integracyjne będą te spotkania.
Jak wyjaśniła Christine Aubry, międzynarodowa koordynatorka globalnego producenta wyrobów cukierniczych Brioche Pasquier, wyjaśniła w DeepL Dialogues, szybsze tłumaczenia zmieniają wasz tryb z biernego na aktywny. Zamiast męczyć się, żeby nadążyć za tym, co mówią inni w innym języku, czujecie się w pełni na bieżąco. Podobnie jak osoby posługujące się językiem ojczystym, macie możliwość wtrącania się do rozmowy, kształtowania jej przebiegu i aktywnego uczestniczenia w niej. Sekunda robi ogromną różnicę.
Szybkość jest zatem priorytetem podczas tłumaczenia mowy w czasie rzeczywistym. Jednak szybkość działania musi być zrównoważona innymi priorytetami, które również mają duży wpływ na doświadczenia użytkowników. Tłumaczenia muszą być jak najdokładniejsze, aby uniknąć nieporozumień i niejasności. W miarę możliwości tłumaczenia muszą minimalizować „migotanie”, które występuje, gdy wcześniej przetłumaczony tekst musi zostać poprawiony, ponieważ znaczenie się zmieniło. Im niższa częstotliwość migotania, tym łatwiej jest śledzić rozmowę w naturalny sposób.
Jak zmienić język, kiedy ludzie mówią, a nie piszą
Aby dokładnie przetłumaczyć mowę na żywo, ważne jest zrozumienie wielu różnic między wzorcami języka pisanego a rytmem mowy. Na przykład sposób, w jaki ludzie mówią, jest znacznie bardziej indywidualny i mniej spójny niż sposób, w jaki piszecie. Używacie charakterystycznych zwrotów i kolokwializmów, które mogą wynikać zarówno z regionalnych dialektów, jak i z waszej osobowości lub postrzegania siebie. Ponadto ludzie konstruują i poprawiają zdania w trakcie mówienia, co prowadzi do niepłynności, gdy po jednym niepoprawnym gramatycznie terminie natychmiast następuje inny, bardziej poprawny. Dosłowne odtworzenie tych słów w tłumaczeniu nie jest pomocne dla kogoś, kto próbuje zrozumieć ich znaczenie.
W trakcie rozmów ludzie wypowiadają również krótkie potwierdzenia — takie jak „uh-huh” — aby zapewnić rozmówców, że rozumieją lub zgadzają się z tym, co mówią. Pomagają one w płynności rozmowy, ale utrudniają tłumaczenie osobom próbującym śledzić rozmowę w innym języku. Warto odfiltrować te elementy języka mówionego z tłumaczenia.
Optymalizacja pod kątem tłumaczenia w czasie rzeczywistym
Wyzwanie staje się jeszcze bardziej interesujące, gdy weźmie się pod uwagę, że platforma tłumaczeń w czasie rzeczywistym nie tłumaczy całych zdań. Musisz przetłumaczyć zdanie w trakcie jego wypowiadania, kiedy ostateczne znaczenie tego zdania nie jest jeszcze jasne. Wymaga to od nas nieco innego podejścia do optymalizacji tłumaczeń. Nie zależy wam tylko na jak najdokładniejszym tłumaczeniu, ale na tłumaczeniu, które jest na tyle elastyczne, że pozwala uwzględnić nowe informacje, które mogą zmienić kierunek wypowiedzi.
Oto przykład: Wyobraź sobie, że tłumaczymy wirtualne spotkanie, podczas którego jeden z uczestników mówi po angielsku, a jeden z pozostałych uczestników śledzi jego wypowiedź dzięki napisom w języku niemieckim. Nasz rozmówca mówiący po angielsku przerywa rozmowę, mówiąc: „Znalazłem to” Jeśli założymy, że jest to pełne zdanie, najlepszym możliwym tłumaczeniem na język niemiecki byłoby: „Ich habe es gefunden”. Jednakże, ponieważ jest to mowa na żywo, nie możecie mieć pewności, czy zdanie jest kompletne, czy nie.
W tym przypadku lepszym rozwiązaniem byłoby użycie tłumaczenia „Ich fand es ”. Dlaczego? Ponieważ kiedy osoba mówiąca po angielsku dodaje: „I found it frustrating” (Było to dla mnie frustrujące), tłumaczenie „ich fand es” idealnie pasuje do tego, żeby dodać słowo „frustrierend”. Gdyby pierwsze trzy słowa przetłumaczyć jako „Ich habe es gefunden”, całe tłumaczenie wymagałoby poprawek. To właśnie tego rodzaju poważne „zakłócenia” utrudniają intuicyjne śledzenie rozmowy i DeepL stara się je minimalizować w miarę możliwości.
Dokładne tłumaczenie mowy w czasie rzeczywistym wymaga szerokiego zakresu takich ocen kontekstowych, które najlepiej przeprowadzać, gdy technologia jest wspierana przez ludzką wiedzę specjalistyczną. Ta wiedza specjalistyczna obejmuje zrozumienie, gdzie w różnych językach umieszczane są czasowniki, które mają kluczowe znaczenie dla znaczenia zdania. Jeśli pojawiają się na początku (jak w języku francuskim i hiszpańskim), tłumaczenie można wyświetlić szybciej niż w przypadku, gdy pojawiają się na końcu. Wszystko to pomaga systemowi zatrzymać się na tyle długo, aby zapewnić dokładność, ale nie na tyle długo, aby niepotrzebnie opóźniać zrozumienie.
Znalezienie idealnego rozwiązania dzięki zrozumieniu specyfiki języka
Połączenie wiedzy lingwistycznej z niezwykle dokładnym tłumaczeniem sprawia, że DeepL Voice już teraz znacząco wpływa na jakość spotkań i rozmów w międzynarodowych firmach. Wśród nich znajduje się firma NEC Corporation, która jako pierwszą firmą, która w pełni uruchomiła DeepL Voice, zaledwie kilka tygodni po naszej oficjalnej premierze.
Entuzjazm wokół DeepL Voice odzwierciedla fakt, że jest to przełomowy moment w dziedzinie tłumaczenia mowy. Umiejętność rozszyfrowywania i tłumaczenia tego, co mówią ludzie w trakcie wypowiedzi, zwielokrotnia wartość, jaką możemy stworzyć dla międzynarodowych biznesowych przedsiębiorstw. Zmienia sposób współpracy zespołów, buduje silniejsze relacje i gwarantuje, że różne pomysły i perspektywy są zawsze brane pod uwagę.
Osiągnięte dotychczas postępy już teraz mają ogromny wpływ na sposób funkcjonowania organizacji. To jeszcze nie wszystko!