Apa yang membuat penerjemahan ucapan unik — dan bagaimana memahaminya dapat mengatasi hambatan bahasa yang paling sulit.

Orang tidak berbicara dengan cara yang sama seperti mereka menulis. Mereka juga tidak mengalami percakapan lisan dengan cara yang sama seperti saat mereka membaca email atau artikel. Kemampuan kita untuk saling memahami saat berbicara — menggabungkan berbagai bentuk komunikasi verbal dan non-verbal untuk segera memahami apa yang dimaksud oleh seseorang — adalah seni ekspresi manusia yang penuh tantangan. Ketika Anda mundur sejenak dan mempertimbangkan apa yang terjadi dalam percakapan, sungguh mengagumkan betapa banyak informasi yang dapat disampaikan dengan begitu cepat. 

Ketika Anda menyetel tugas untuk menerjemahkan percakapan lisan secara real-time, seperti yang telah dilakukan DeepL dengan solusi DeepL Voice, Anda akan menemukan berbagai wawasan menarik tentang apa yang membuat penerjemahan bahasa lisan berbeda dengan menerjemahkan teks. Dalam posting ini, saya akan berbagi beberapa wawasan tersebut, dan menjelaskan bagaimana kami menggunakannya untuk mengubah pengalaman rapat dan percakapan.

Tantangan dalam menerjemahkan ucapan secara real-time dan bagaimana kami mengatasinya

Komunikasi instan dan santai secara mendasar adalah sifat manusia, dan sangat sulit bagi teknologi untuk menirunya — bahkan teknologi secanggih AI. Jika Anda ingin menciptakan solusi untuk bisnis yang dapat membantu orang mengikuti dan berpartisipasi dalam percakapan dalam berbagai bahasa, Anda harus memulai dengan pemahaman yang mendalam tentang tantangan yang terlibat.

Tantangan-tantangan tersebut meliputi kemampuan untuk meniru keterampilan manusia dalam memprediksi apa yang akan dikatakan orang sebelum mereka selesai mengatakannya. Ketika Anda menerjemahkan ucapan dalam situasi langsung, Anda juga perlu memprediksi bagaimana kata-kata seseorang dapat diekspresikan dengan sebaik-baiknya dalam bahasa lain. Namun yang terpenting, Anda perlu melakukan ini sebelum Anda yakin bagaimana kalimat asli akan berakhir, agar terhindar dari penundaan waktu yang lama. Tantangan di sini adalah bahwa terjemahan yang tampaknya akurat untuk beberapa kata dapat ternyata menjadi terjemahan yang tidak akurat begitu individual tersebut menyelesaikan kalimatnya. 

Ketika kami mulai mengembangkan DeepL Voice, kami menyadari bahwa terjemahan langsung berkualitas tinggi dari ucapan tidak dapat dicapai hanya dengan teknologi saja. Hal ini bergantung pada minat yang mendalam dan pemahaman yang baik tentang berbagai cara kerja bahasa. Jadi, kami mengumpulkan para ahli linguistik yang berfokus pada percakapan lisan, dan memanfaatkan pemahaman kontekstual yang kuat dari DeepL tentang cara kerja berbagai bahasa. Kami juga berpartner dengan bisnis untuk mengidentifikasi prioritas mereka dan pengalaman penerjemahan ucapan yang memberikan nilai tertinggi bagi mereka.

Perbedaan besar yang bisa ditimbulkan oleh satu detik

Salah satu hal pertama yang kami pelajari adalah bahwa waktu sangat penting dalam penerjemahan real-time suatu pertemuan atau percakapan. Jika Anda dapat mendekati kecepatan ucapan — menampilkan terjemahan kalimat pada saat pembicara telah selesai mengucapkannya — maka Anda dapat sangat mempengaruhi seberapa inklusif pertemuan-pertemuan tersebut dapat menjadi. 

Sebagai Christine Aubry, koordinator internasional untuk produsen kue global Brioche Pasquier, menjelaskan dalam DeepL Dialogues, terjemahan yang lebih cepat mengubah mode partisipasi orang dari pasif menjadi aktif. Daripada kesulitan mengikuti apa yang orang lain katakan dalam bahasa lain, mereka merasa sudah sepenuhnya mengerti. Seperti penutur bahasa asli, mereka memiliki kesempatan untuk menyela, membentuk percakapan, dan berpartisipasi secara aktif. Selisih satu detik saja bisa membuat perbedaan yang sangat besar.

Kecepatan, oleh karena itu, menjadi prioritas utama dalam menerjemahkan ucapan secara real-time. Namun, kecepatan harus diseimbangkan dengan prioritas lain yang juga memiliki dampak besar terhadap pengalaman pengguna. Terjemahan harus sedapat mungkin akurat untuk menghindari kesalahpahaman dan kebingungan. Dan jika memungkinkan, terjemahan harus meminimalkan "kedipan" yang terjadi ketika teks yang telah diterjemahkan sebelumnya harus diperbaiki karena maknanya berubah. Semakin rendah tingkat kedipan ini, semakin mudah bagi seseorang untuk mengikuti percakapan secara alami.

Bagaimana bahasa berubah ketika orang berbicara, bukan mengetik.

Untuk menerjemahkan ucapan secara langsung dengan akurat, penting untuk memahami perbedaan-perbedaan yang banyak antara pola bahasa tertulis dan ritme ucapan. Misalnya, cara orang berbicara jauh lebih individual dan kurang konsisten dibandingkan dengan cara mereka menulis. Mereka menggunakan ungkapan-ungkapan khas dan bahasa gaul yang dapat berasal baik dari dialek regional maupun dari kepribadian atau citra diri mereka sendiri. Selain itu, orang-orang membangun dan memperbaiki kalimat saat mereka berbicara, yang menyebabkan ketidaklancaran di mana satu istilah yang secara gramatikal salah langsung diikuti oleh istilah yang lebih benar. Menerjemahkan kalimat-kalimat ini secara harfiah tidak membantu bagi seseorang yang berusaha memahami maknanya. 

Selama percakapan, orang juga sering mengucapkan afirmasi singkat — seperti “uh-huh” — untuk meyakinkan pembicara bahwa mereka memahami atau setuju dengan apa yang sedang dibicarakan. Hal ini membantu alur percakapan itu sendiri, tetapi membuat terjemahan menjadi berantakan bagi orang yang mencoba mengikuti dalam bahasa lain. Sebaiknya elemen-elemen bahasa lisan ini disaring keluar dari terjemahan.

Optimasi untuk terjemahan real-time

Tantangan ini menjadi semakin menarik ketika Anda mempertimbangkan bahwa platform terjemahan real-time tidak menerjemahkan kalimat secara utuh. Perangkat tersebut perlu menerjemahkan kalimat saat kalimat tersebut sedang diucapkan, meskipun makna akhir dari kalimat tersebut belum jelas. Hal ini mengharuskan kami untuk mengoptimalkan terjemahan dengan cara yang sedikit berbeda. Kami tidak hanya menginginkan terjemahan yang paling akurat, tetapi juga terjemahan yang akurat dan fleksibel sehingga dapat menyesuaikan diri dengan informasi baru yang mungkin mengubah arah pembicaraan.

Berikut ini contohnya: Bayangkan kita sedang menerjemahkan pertemuan virtual di mana salah satu peserta berbicara dalam bahasa Inggris, dan salah satu peserta lainnya mengikuti apa yang mereka katakan dengan teks terjemahan dalam bahasa Jerman. Penutur Inggris itu memotong percakapan untuk berkata, “Saya menemukannya.” Sekarang, jika kita menganggap ini sebagai kalimat yang lengkap, terjemahan terbaik dalam bahasa Jerman adalah, “Ich habe es gefunden.” Namun, karena ini adalah ucapan langsung, kita tidak dapat memastikan apakah kalimat tersebut lengkap atau tidak.

Pilihan yang lebih baik dalam hal ini mungkin adalah menggunakan terjemahan seperti “Ich fand es” sebagai gantinya. Mengapa? Karena ketika penutur bahasa Inggris melanjutkan dengan mengatakan, “Saya merasa frustrasi,” terjemahan “ich fand es” dapat dengan tepat untuk menambah kata “frustrierend”. Jika tiga kata pertama diterjemahkan sebagai “Ich habe es gefunden,” seluruh terjemahan perlu direvisi. Itulah jenis gangguan besar yang menghalangi kemampuan untuk mengikuti percakapan secara intuitif, dan yang DeepL berusaha untuk meminimalkan sebanyak mungkin.

Penerjemahan ucapan yang akurat dan real-time melibatkan berbagai penilaian konteks yang sebaiknya dilakukan ketika teknologi dipandu oleh keahlian manusia. Keahlian tersebut mencakup pemahaman tentang di mana kata kerja yang penting bagi makna kalimat cenderung ditempatkan dalam berbagai bahasa. Jika mereka muncul di awal (seperti dalam bahasa Prancis dan Spanyol), kemungkinan untuk menampilkan terjemahan lebih cepat daripada ketika mereka muncul di akhir. Semua ini membantu sistem untuk berhenti sejenak agar tetap akurat, tetapi tidak terlalu lama sehingga tidak menunda pemahaman secara tidak perlu.

Menemukan titik optimal melalui pemahaman yang spesifik terhadap bahasa

Kombinasi keahlian linguistik manusia dengan terjemahan yang sangat akurat ini telah memungkinkan DeepL Voice untuk memberikan dampak besar pada pengalaman rapat dan percakapan bagi bisnis internasional. Di antaranya adalah NEC Corporation, yang menjadi perusahaan pertama yang sepenuhnya menerapkan DeepL Voice, hanya beberapa minggu setelah peluncuran resmi kami. 

Antusiasme seputar DeepL Voice mencerminkan fakta bahwa ini merupakan momen revolusioner dalam bidang penerjemahan ucapan. Kemampuan untuk mendekode dan menerjemahkan apa yang orang katakan saat mereka sedang mengatakannya, meningkatkan nilai yang dapat kami ciptakan untuk bisnis internasional. Hal ini mengubah cara tim berkolaborasi, memperkuat hubungan antaranggota, dan memastikan bahwa ide-ide dan perspektif yang berbeda selalu dipertimbangkan. 

Kemajuan yang telah kita capai sejauh ini sudah memberikan dampak yang signifikan terhadap cara organisasi beroperasi. Masih banyak lagi yang akan datang!

Share