음성 번역이 특별한 이유 — 그리고 이를 이해함으로써 가장 까다로운 언어 장벽을 허물 수 있는 방법

사람들은 글을 쓰는 방식과 똑같이 말하지 않는다. 그들은 또한 이메일과 기사를 읽는 것과 같은 방식으로 말로 된 대화를 경험하지도 않습니다. 말하는 순간 서로를 이해하는 우리의 능력 — 온갖 언어적·비언어적 의사소통을 총동원해 상대방의 뜻을 순간적으로 포착하는 것 — 이야말로 인간 표현의 줄타기 같은 묘기다. 한 걸음 물러서서 대화에서 일어나는 일을 생각해보면, 얼마나 많은 정보가 그렇게 빠르게 전달되는지 놀랍기 그지없다. 

설정: DeepL이 우리의 새로운 DeepL Voice 솔루션과 같이 실시간 음성 대화 번역을 수행하는 과제를 수행할 때, 우리는 음성 언어 번역이 텍스트 번역과 어떻게 다른지에 대한 다양한 흥미로운 통찰력을 발견하게 됩니다. 이 글에서는 그 통찰 중 일부를 공유하고, 이를 활용하여 회의와 대화의 경험을 어떻게 변화시키고 있는지 설명하겠습니다.

실시간 음성 번역의 과제와 이를 극복한 방법

즉각적이고 대화식 소통은 근본적으로 인간적인 특성이며, AI처럼 진보된 기술조차도 이를 재현하기는 극히 어렵다. 여러 언어로 진행되는 대화를 사람들이 따라가고 참여할 수 있도록 지원하는 비즈니스 솔루션을 만들고자 한다면, 먼저 그 과정에서 발생하는 과제들에 대한 깊은 이해부터 시작해야 합니다.

이러한 과제에는 사람들이 말을 다 마치기 전에 그들이 무슨 말을 할지 예측하는 인간의 능력을 재현하는 것이 포함된다. 실시간 상황에서 음성을 통역할 때는 상대방의 말이 다른 언어(언어)로 어떻게 가장 효과적으로 표현될 수 있을지 예측해야 합니다. 그러나 무엇보다도, 원문 문장이 어떻게 끝날지 확실히 알기 전에 이 작업을 수행해야 합니다. 그래야만 긴 시간 지연을 피할 수 있습니다. 여기서 문제는 몇 단어만 정확하게 번역된 것처럼 보일 수 있지만, 개인이 문장을 완성하면 부정확한 번역으로 드러날 수 있다는 점이다. 

DeepL Voice 개발에 착수했을 때, 우리는 고품질의 실시간 음성 번역이 기술만으로 달성될 수 없다는 점을 알고 있었습니다. 언어가 작동하는 다양한 방식에 대한 깊은 관심과 이해에 달려 있습니다. 따라서 우리는 구어 대화 적용 분야의 언어학 전문가들을 한데 모았고, DeepL의 다양한 언어 작동 방식을 이해하는 강력한 문맥 인식 능력을 활용했습니다. 또한 비즈니스들과 파트너십을 맺고 그들의 우선순위와 비즈니스들에게 가장 큰 가치를 창출하는 음성 번역 경험을 탐구했습니다.

1초가 만들어내는 엄청난 차이

회의나 대화의 실시간 통역에 있어 가장 먼저 깨달은 점 중 하나는 타이밍이 모든 것을 좌우한다는 사실에 대한 최신 정보입니다. 음성의 속도에 근접할 수 있다면 — 화자가 문장을 끝마칠 때쯤 번역을 표시할 수 있다면 — 회의의 포용성에 큰 영향을 미칠 수 있습니다. 

브리오슈 파스키에(Brioche Pasquier) 글로벌 제과제조업체의 국제 코디네이터인 크리스틴 오브리(Christine Aubry)가 DeepL Dialogues에서 설명했듯이에서 설명했듯이, 빠른 번역은 사람들의 참여 방식을 수동적에서 능동적으로 전환시킵니다. 다른 언어에서 다른 사람들이 말하는 내용을 따라잡기 위해 애쓰기보다는, 그들은 완전히 속도를 맞춘 느낌을 받는다. 그들은 모국어 화자처럼, 끼어들고 대화를 이끌며 적극적으로 참여할 기회를 가집니다. 1초 정도의 차이가 엄청난 차이를 만든다.

따라서 실시간 음성 번역 시 속도는 최우선 과제입니다. 그러나 속도는 사람들의 경험에 큰 영향을 미치는 다른 우선순위들과 균형을 맞춰야 합니다. 번역은 오해와 혼란을 피하기 위해 가능한 한 정확해야 합니다. 가능한 경우, 번역은 의미가 변경되어 이전에 번역된 텍스트를 수정해야 할 때 발생하는 "깜빡임"을 최소화해야 합니다. 이 깜빡임의 빈도가 낮을수록, 누군가가 자연스러운 방식으로 대화를 따라가기 쉬워진다.

사람들이 타이핑하지 않고 말할 때 언어의 변경은 어떻게 발생하는가

실시간 음성을 정확하게 번역하려면, 언어의 패턴과 구어의 리듬 사이의 다양한 차이점을 이해하는 것이 중요하다. 예를 들어, 사람들이 말하는 방식은 글쓰기 방식보다 훨씬 더 개인적이고 일관성이 떨어진다. 그들은 지역 방언에서 비롯될 수도 있고, 그들의 특정한 성격이나 자아상에서 비롯될 수도 있는 독특한 표현과 구어체를 사용한다. 또한 사람들은 말하면서 문장을 구성하고 수정하는데, 이로 인해 문법적으로 틀린 용어가 즉시 더 올바른 용어로 이어지는 유창성 저하 현상이 발생한다. 번역에서 이를 문자 그대로 재현하는 것은 의미를 이해하려는 사람에게 도움이 되지 않습니다. 

대화 중 사람들은 또한 "응" 과 같은 짧은 확인 표현을 내뱉어 상대방이 자신의 말을 이해하거나 동의한다는 점을 안심시키곤 한다. 이러한 요소들은 대화 흐름 자체에는 도움이 되지만, 다른 언어로 따라가려는 사람들에게는 번역을 복잡하게 만듭니다. 번역에서 이러한 음성 언어 요소를 걸러내는 것이 도움이 됩니다.

실시간 번역 최적화

실시간 번역 플랫폼이 완전한 문장을 번역하지 않는다는 점을 고려하면 이 과제는 더욱 흥미로워진다. 문장이 말해지는 동안, 그 문장의 최종 의미가 아직 명확하지 않을 때 번역해야 합니다. 이를 위해서는 번역을 약간 다른 방식으로 최적화해야 합니다. 우리는 단순히 가장 정확한 번역을 원하는 것이 아니라, 말의 방향을 변경할 수 있는 새로운 정보를 유연하게 반영할 수 있는 정확한 번역을 원합니다.

예를 들어: 가상 회의에서 한 참가자가 영어로 말하고, 다른 참가자 중 한 명이 독일어 자막으로 그 내용을 따라가는 상황을 번역한다고 상상해 보세요. 우리의 영어 사용자가 대화를 끊으며 말한다. "찾았어." 이제, 이것이 완전한 문장이라고 가정한다면, 가장 적절한 독일어 번역은 "Ich habe es gefunden. "일 것입니다. 그러나 이는 생방송 음성이므로 문장이 완결되었는지 여부를 확신할 수 없습니다.

이 경우 더 나은 선택은 "Ich fand es" 와 같은 번역을 사용하는 것일 수 있습니다. 왜 DeepL일까요? 왜냐하면 영어 화자가 이어서 "나는 그게 답답하다고 느꼈어"라고 말할 때, "ich fand es" 번역은 단순히 "frustrierend"라는 단어를 추가하기에 완벽한 위치에 있기 때문이다. 만약 처음 세 단어가 "Ich habe es gefunden" 로 번역되었다면 , 전체 번역을 수정해야 할 것입니다. 바로 이런 종류의 큰 "깜빡임"이 대화를 직관적으로 따라가는 데 방해가 되며, DeepL은 가능한 한 이를 최소화하고자 합니다.

정확한 실시간 음성 번역은 다양한 맥락적 판단을 수반하며, 이는 기술이 인간의 전문성에 의해 주도될 때 가장 효과적으로 이루어진다. 그 전문성에는 문장의 의미에 핵심적인 동사들이 각 언어에서 어디에 위치할 가능성이 높은지에 대한 통찰력이 포함된다. 문장이 시작 부분에 위치할 경우(프랑스어와 스페인어처럼), 문장 끝 부분에 위치할 때보다 번역을 더 빠르게 표시할 수 있습니다. 이 모든 것은 시스템이 정확성을 유지하기에 충분한 시간 동안 일시 정지하도록 돕지만, 불필요한 이해 지연을 초래할 정도로 오래 멈추지는 않도록 합니다.

언어별 이해를 통한 최적점 찾기

인간 언어학 전문성과 높은 정확도의 번역이 결합된 이 기술은 이미 DeepL Voice가 국제 비즈니스의 회의 및 대화 경험에 큰 변화를 가져오도록 하고 있습니다. 여기에는 NEC Corporation이 포함되며, 이 회사는 DeepL Voice를 완전히 배포한 최초의 기업이 된 공식 출시 불과 몇 주 만에 

DeepL Voice에 대한 열광은 음성 번역 분야에서 획기적인 순간임을 반영합니다. 사람들이 말하는 내용을 그들이 말하는 바로 그 순간에 해독하고 번역하는 능력은 국제 비즈니스에 창출할 수 있는 가치를 배가시킵니다. 팀이 협업하는 방식을 변화시키고, 더 강한 관계를 구축하며, 다양한 아이디어와 관점이 항상 포함되도록 보장합니다. 

지금까지 이루어낸 발전은 이미 조직 운영 방식에 중대한 변화를 가져오고 있습니다. 앞으로 더 많은 것이 기다리고 있습니다!

공유