为什么电话通话中的实时语音翻译如此困难
如果您曾经使用过那种需要您按下一个按钮、等待片刻、然后再按另一个按钮的翻译应用,您就会明白*翻译*和*实时翻译*之间的巨大鸿沟。前者是一种工具,后者则是一种对话。在普通的电话通话中弥合这种鸿沟远比听起来要难得多,因为电话网络的设计初衷并非如此。
本文将从用户的角度解释为什么实时语音翻译如此困难——而不会深入探讨具体的实现方案。
“实时”的真正含义
实时意味着对话以人类对话的速度进行。实际上,这意味着从一方停止说话到另一方开始听到翻译之间大约有半秒的延迟。延迟超过半秒,通话就会感觉像在用对讲机。即使对于人类来说,低于 500 毫秒的延迟也很少见。
要达到这个目标,需要一系列操作快速完成:
1. 系统需要知道句子何时结束。这听起来很简单,但实际上并非如此。手机会携带呼吸声、环境噪音和一些杂音,这些声音对于简单的语音识别器来说可能看起来像是语音。
2. 系统需要理解所说的话。语音识别技术比十年前有了很大的进步,但口音、方言和糟糕的通话质量仍然会干扰模型。
3. 系统需要准确翻译。逐字翻译在语序不同的语言中经常会产生无意义的结果。句子级翻译更准确,但速度较慢。
4. 系统需要用一种听起来不像机器人播报新闻的声音复述翻译结果。
这四个步骤中的每一个都会占用一定的延迟预算。系统大约只有半秒钟的时间来完成所有四个步骤。
为什么电话通话比视频通话更难
用于处理两个浏览器之间视频通话的应用程序拥有电话通话所不具备的几项功能:
- 更高的音频质量。浏览器音频以录音棚级别的音质运行。而电话通话则以网络在 20 世纪 80 年代设计的低保真音频规范运行——频率范围更窄,压缩失真更多。语音识别在浏览器音频上比在电话音频上拥有更多可用的信息。
- 客户端处理。浏览器应用程序可以在用户设备上预处理音频——回声消除、噪声抑制、句子边界检测。电话无法为通话发起方提供这些功能。
- 可控的网络路径。浏览器可以协商两个端点之间的路由。而电话通话则通过网络运营商选择的任何路径进行。
- 备用屏幕。视频通话可以显示字幕、语言选择器和静音按钮。而电话通话只有音频。
电话网络最大的限制也是它最大的优势:接收方无需安装任何应用程序。 这正是翻译电话如此实用的原因所在,它可以帮助我们联系到祖父母、供应商、热线工作人员以及任何不需要安装任何软件的人。将技术上的复杂性隐藏在“像平常一样接听电话”的背后,这才是真正的产品优势。
延迟的隐藏之处
一次流畅的实时翻译通话,每个方向的耗时大致如下:
- 检测句子结束:约 500 毫秒(经过精心调整——太短会导致通话中断,太长会导致通话延迟)
- 识别所说内容:句子结束后约 100 毫秒
- 翻译成目标语言:约 100 毫秒
- 合成翻译后的语音:约 150 毫秒
- 网络和协调开销:约 100 毫秒
总计:中位数约为 600 毫秒,在嘈杂的通话中偶尔会达到 1 秒。这就是为什么实时翻译通话感觉像是略有延迟的卫星通话。
优质翻译的体验
系统运行良好的几个标志:
- 双方说话自然流畅。 无需“慢点说”的指导。每个词之间没有停顿。
- 每位说话者都保持自己的声音。 听起来像机器人朗读字幕的翻译就像在进行外语通话。与说话者语调一致的翻译则像真实的对话。
- 可以随时打断。 真实的对话中会出现重叠。系统能够处理这种情况,而不会中断音频。
- 支持语码切换。 会说两种语言的人经常会混合使用不同的语言。系统能够很好地适应。
翻译的不足之处
实时人工智能翻译并非万能。有些因素仍然会影响翻译质量:
- 浓重的方言。 主要语言的标准语音翻译效果良好。但浓重的方言仍然会给系统带来挑战。
- 多人同时说话。 系统的设计假设是一次只处理一个人的声音。嘈杂的环境会破坏这一假设。
- 轻声细语或大声喊叫。识别模型针对正常音量进行了优化。音量异常会影响准确率。
- 高度专业化的术语。日常通话效果很好。但涉及心胸外科手术或航空航天工程等主题的通话可能需要该领域的专家级人工翻译。
更准确的说法是:实时人工智能翻译能够出色地处理对话中的大部分内容。而极少数极端情况——仅用于闲聊的通话和涉及高风险领域的专业通话——有时需要人工翻译。