Що робить переклад мовлення унікальним — і як його розуміння може подолати найскладніші мовні бар'єри

У цьому дописі
Люди не розмовляють так само, як пишуть. Вони також не сприймають усні розмови так само, як читання електронної пошти або статті. Наша здатність розуміти один одного в момент розмови — об'єднуючи всі види вербальної та невербальної комунікації, щоб миттєво зрозуміти, що хтось має на увазі, — це справжній баланс людського самовираження. Коли ви робите крок назад і замислюєтеся над тим, що відбувається під час розмови, дивовижно, скільки інформації передається так швидко.
Коли ви встановлюєте собі за завдання перекладати усні діалоги в режимі реального часу, як це зробила DeepL з нашим новим рішенням DeepL Voice, ви відкриваєте для себе безліч цікавих фактів про те, чим переклад усного мовлення відрізняється від перекладу тексту. У цій публікації я поділюся деякими з цих ідей і поясню, як ми використовуємо їх для трансформації досвіду зустрічей і розмов.
Виклики перекладу мови в режимі реального часу та як ми їх подолали
Миттєве спілкування в режимі діалогу є фундаментально людським, і його надзвичайно складно відтворити за допомогою технологій — навіть таких передових, як ШІ. Якщо ви хочете створювати рішення для бізнесу, які допоможуть людям стежити за розмовами та брати участь у них різними мовами, вам слід почати з глибокого розуміння пов'язаних з цим викликів.
Ці виклики включають відтворення людської здатності передбачати, що люди скажуть, ще до того, як вони закінчать свою фразу. Коли ви перекладаєте мовлення в режимі реального часу, вам також потрібно передбачити, як найкраще висловити слова співрозмовника іншою мовою. Однак, що дуже важливо, це потрібно зробити до того, як ви точно дізнаєтеся, як закінчиться оригінальне речення, щоб уникнути тривалих затримок. Проблема полягає в тому, що те, що здається точним перекладом кількох слів, може виявитися неточним перекладом, коли індивідуальний завершить своє речення.
Коли ми почали розробляти DeepL Voice, ми розуміли, що високоякісний переклад мови в режимі реального часу неможливо досягти лише за допомогою технологій. Це залежить від глибокого інтересу до різних способів функціонування мови та їх розуміння. Тому ми зібрали експертів з лінгвістики, які спеціалізуються на усній мові, і використали потужну контекстну систему DeepL, яка розуміє, як працюють різні мови. Ми також співпрацювали з бізнесом, щоб вивчити їхні пріоритети та досвід перекладу мовлення, який створює для них найбільшу цінність.
Яку величезну різницю може зробити одна секунда
Одне з перших усвідомлень, яке ми дізналися, полягає в тому, що час має вирішальне значення, коли йдеться про переклад зустрічі або розмови в режимі реального часу. Якщо ви зможете наблизитися до швидкості мовлення — відображаючи переклад речення до того, як мовець його закінчить, — то ви зможете значно вплинути на те, наскільки інклюзивними можуть бути ці зустрічі.
Як пояснила Крістін Обрі, міжнародний координатор глобального виробника кондитерських виробів Brioche Pasquier, пояснила в DeepL Dialogues, швидший переклад переводить людей з пасивного режиму в активний. Замість того, щоб намагатися встигати за тим, що говорять інші іншою мовою, вони відчувають себе повністю в курсі подій. Як носії рідної мови, вони мають можливість втручатися, формувати розмову та брати в ній активну участь. Секунда або дві можуть мати величезне значення.
Тому швидкість є головним пріоритетом при перекладі мови в режимі реального часу. Але швидкість повинна бути збалансована з іншими пріоритетами, які також мають великий вплив на досвід людей. Переклади повинні бути якомога точнішими, щоб уникнути непорозумінь і плутанини. І, де це можливо, переклади повинні мінімізувати «мерехтіння», яке виникає, коли раніше перекладений текст доводиться виправляти через те, що значення змінилося. Чим нижча частота цього мерехтіння, тим легше людині природно стежити за розмовою.
Як мову можна змінити, коли люди розмовляють, а не друкують
Щоб точно перекладати живу мову, важливо розуміти численні відмінності між структурою письмової мови та ритмом мовлення. Наприклад, спосіб мовлення людей є набагато індивідуальнішим і менш послідовним, ніж спосіб вашого тексту. Вони використовують особливі звороти та розмовні вирази, які можуть походити як з регіональних діалектів, так і з їхньої індивідуальної особистості чи самооцінки. Крім того, люди будують і виправляють речення під час мовлення, що призводить до нерівномірності, коли один граматично неправильний термін миттєво змінюється іншим, більш правильним. Дослівне відтворення цих слів у перекладі не допоможе тому, хто намагається зрозуміти їх значення.
Під час розмови люди також вимовляють короткі підтвердження — наприклад, «ага» — щоб запевнити співрозмовника, що вони розуміють або погоджуються з тим, що він говорить. Це сприяє плавності розмови, але ускладнює переклад для людей, які намагаються стежити за нею іншою мовою. Корисно відфільтрувати ці елементи усного мовлення з перекладу.
Оптимізація для перекладу в режимі реального часу
Виклик стає ще цікавішим, якщо врахувати, що платформа перекладу в режимі реального часу не перекладає цілі речення. Він повинен перекладати речення під час його вимови, коли остаточне значення цього речення ще не є зрозумілим. Це вимагає від нас оптимізації перекладів дещо іншим способом. Ми хочемо не просто найточніший переклад, а точний переклад, який буде достатньо гнучким, щоб врахувати нову інформацію, яка може змінити зміст висловлювання.
Ось приклад: Уявіть, що ми перекладаємо віртуальну зустріч, на якій один з учасників розмовляє англійською мовою, а інший учасник стежить за тим, що він говорить, за допомогою субтитрів німецькою мовою. Наш співрозмовник, який розмовляє англійською, перериває розмову, щоб сказати: «Я знайшов це». Тепер, якщо ми припустимо, що це повне речення, найкращим можливим перекладом німецькою мовою буде «Ich habe es gefunden». Однак, оскільки це живе мовлення, ми не можемо бути впевнені, чи є це речення повним.
У цьому випадку кращим варіантом може бути використання перекладу «Ich fand es». Чому? Оскільки, коли англійський співрозмовник продовжує: «Я вважав це розчаруванням», переклад «ich fand es» ідеально підходить для того, щоб просто додати слово «frustrierend». Якщо перші три слова були перекладені як «Ich habe es gefunden», то весь переклад потрібно було б переглянути. Це той тип серйозних «перешкод», які заважають інтуїтивно слідкувати за розмовою, і які DeepL прагне мінімізувати, де це можливо.
Точний переклад мовлення в режимі реального часу передбачає широкий спектр таких контекстуальних оцінок, які найкраще здійснювати, коли технологія керується людським досвідом. Ця експертиза включає розуміння того, де в різних мовах, як правило, розміщуються дієслова, які мають вирішальне значення для сенсу речення. Якщо вони стоять на початку (як у французькій та іспанській мовах), переклад можна відобразити швидше, ніж коли вони стоять у кінці. Все це допомагає системі зробити паузу, достатню для забезпечення точності, але не настільки довгу, щоб без необхідності затримувати розуміння.
Знаходження золотої середини завдяки розумінню особливостей мови
Поєднання людських знань у галузі лінгвістики з високою точністю перекладу вже дозволяє DeepL Voice значно покращити якість зустрічей та розмов для міжнародного бізнесу. Серед них — NEC Corporation, яка стала першою компанією, яка повністю розгорнула DeepL Voice, вже через кілька тижнів після нашого офіційного запуску.
Ажіотаж навколо DeepL Voice відображає той факт, що це є революційним моментом для перекладу мовлення. Здатність розшифровувати та перекладати те, що люди говорять, у той самий момент, коли вони це говорять, значно збільшує цінність, яку ми можемо створити для міжнародного бізнесу. Він змінює спосіб співпраці команд, зміцнює відносини та гарантує, що різні ідеї та точки зору завжди будуть враховані.
Досягнуті нами на сьогоднішній день успіхи вже суттєво впливають на спосіб функціонування організацій. Попереду ще багато цікавого!