전화 통화에서 실시간 음성 번역이 어려운 이유
버튼을 누르고, 기다리고, 또 다른 버튼을 눌러야 하는 번역 앱을 사용해 본 적이 있다면, *번역*과 *실시간 번역*의 차이를 잘 알 것입니다. 전자는 도구일 뿐이고, 후자는 대화입니다. 일반 전화 통화에서 이 격차를 줄이는 것은 생각보다 어렵습니다. 전화 네트워크가 실시간 번역을 위해 설계된 것이 아니기 때문입니다.
이 글에서는 구체적인 구현 방식에 대한 설명은 생략하고, 왜 실시간 번역이 어려운지 사용자가 이해하기 쉽게 설명합니다.
"실시간"이란 무엇을 의미하는가
실시간이란 사람의 대화 속도에 맞춰 대화가 진행되는 것을 의미합니다. 실제로 한 사람이 말을 멈추고 다른 사람이 번역된 내용을 듣기 시작하는 데 약 0.5초 정도의 지연이 있어야 합니다. 그보다 길어지면 마치 무전기를 사용하는 것처럼 느껴집니다. 500ms 미만의 지연은 사람에게도 드문 경우입니다.
목표 달성을 위해서는 일련의 작업들이 신속하게 이루어져야 합니다.
1. 시스템은 문장이 언제 끝나는지 알아야 합니다. 이는 간단해 보이지만, 결코 쉽지 않습니다. 휴대전화는 숨소리, 주변 소음, 기타 잡소리 등을 음성으로 인식하기 때문입니다.
2. 시스템은 말해진 내용을 이해해야 합니다. 음성 인식 기술은 10년 전보다 훨씬 발전했지만, 억양, 지역 방언, 그리고 통신 상태 불량은 여전히 모델을 혼란스럽게 만듭니다.
3. 시스템은 정확하게 번역해야 합니다. 단어 단위 번역은 어순이 다른 언어에서는 종종 의미 없는 번역 결과를 낳습니다. 문장 단위 번역은 더 정확하지만 속도가 느립니다.
4. 시스템은 로봇이 뉴스를 읽는 것처럼 들리지 않도록 번역 결과를 다시 말해야 합니다.
이 네 단계 각각은 처리 시간 예산의 일부를 차지합니다. 시스템은 이 네 단계를 처음부터 끝까지 완료하는 데 약 0.5초의 시간이 주어집니다.
전화 통화가 영상 통화보다 어려운 이유
두 브라우저 간 영상 통화를 지원하는 앱은 전화 통화에는 없는 여러 가지 기능을 제공합니다.
- 더 높은 음질 브라우저 오디오는 스튜디오급 음질로 재생됩니다. 전화 통화는 1980년대 네트워크 설계 당시의 저음질 오디오 사양(좁은 주파수 범위, 압축으로 인한 음질 저하)으로 재생됩니다. 음성 인식은 전화 오디오보다 브라우저 오디오에서 더 많은 정보를 처리할 수 있습니다.
- 클라이언트 측 처리 브라우저 앱은 사용자의 기기에서 오디오를 미리 처리할 수 있습니다. 에코 제거, 노이즈 억제, 문장 경계 감지 등이 가능합니다. 전화는 통화 상대방에게 이러한 기능을 제공하지 않습니다.
- 제어된 네트워크 경로 브라우저는 두 종단점 간의 경로를 협상합니다. 전화 통화는 통신사가 임의로 선택한 경로를 사용합니다.
- 대체 화면을 위한 보조 화면 영상 통화에는 자막, 언어 선택, 음소거 버튼을 표시할 수 있습니다. 전화 통화는 오디오만 제공됩니다.
전화 네트워크의 가장 큰 제약 조건이자 가장 큰 장점은 바로 수신자가 앱을 설치할 필요가 없다는 점입니다. 이것이 바로 조부모, 공급업체, 고객센터 직원 등 앱을 설치하지 않는 사람들과 통화할 때 통역 통화가 유용한 이유입니다. "평소처럼 전화를 받으면 된다"는 간단한 설명 뒤에 숨겨진 기술적 어려움이 바로 제품의 핵심입니다.
지연 시간의 원인
정상적인 실시간 통역 통화는 양방향으로 다음과 같은 시간을 소모합니다.
- 문장 끝 감지: 약 500ms (의도적으로 조정됨 - 너무 짧으면 통화가 끊기고, 너무 길면 통화가 지연됨)
- 발언 내용 인식: 문장 끝 후 약 100ms
- 대상 언어로 번역: 약 100ms
- 통역 음성 합성: 약 150ms
- 네트워크 및 오케스트레이션 오버헤드: 약 100ms
총합: 평균 약 600ms, 잡음이 심한 통화에서는 최대 1초까지 소요될 수 있습니다. 이것이 바로 실시간 통역 통화가 마치 약간의 지연이 있는 위성 통화처럼 느껴지는 이유입니다.
좋은 번역이란 어떤 느낌일까요?
시스템이 제대로 작동하고 있다는 몇 가지 징후:
- 양쪽 모두 자연스럽게 말합니다. "천천히 말하세요"와 같은 안내가 필요 없습니다. 단어 사이에 멈춤이 없습니다.
- 각 화자가 자신의 목소리를 유지합니다. 로봇이 자막을 읽는 것처럼 들리는 번역은 외국어 통화처럼 느껴집니다. 화자의 어조에 맞는 번역은 실제 대화처럼 느껴집니다.
- 말을 끊을 수 있습니다. 실제 대화에서는 말이 겹치는 경우가 있습니다. 시스템은 오디오를 끊지 않고 이를 처리합니다.
- 언어 전환이 잘 작동합니다. 두 가지 언어를 사용하는 사람들은 종종 두 언어를 혼합해서 사용합니다. 시스템은 이를 따라갑니다.
번역의 한계점
실시간 AI 번역은 마법이 아닙니다. 다음과 같은 상황에서는 번역 품질이 저하됩니다.
- 강한 지역 방언. 주요 언어의 표준어는 잘 번역되지만, 강한 지역 방언은 여전히 시스템에 문제를 일으킵니다.
- 여러 명이 동시에 말하는 경우. 한 번에 한 명의 목소리만 처리하도록 설계되었습니다. 시끄러운 환경에서는 제대로 작동하지 않습니다.
- 속삭이거나 큰 소리로 말하는 경우. 음성 인식 모델은 일반적인 음량에 맞춰 조정됩니다. 음량이 지나치게 크면 정확도가 떨어집니다.
- 전문 용어가 많이 사용되는 경우. 일반적인 대화는 문제없이 처리되지만, 심흉부외과 수술 절차나 항공우주 공학에 대한 통화는 해당 분야 전문가의 통역이 필요할 수 있습니다.
핵심은 실시간 AI 번역이 일반적인 대화의 중간 부분은 탁월하게 처리한다는 것입니다. 하지만 가벼운 대화나 전문적인 내용이 포함된 통화처럼 극단적인 경우는 전문가의 도움이 필요할 수 있습니다.