← all posts·2026-04-28·7 min

为什么电话通话中的实时语音翻译如此困难

如果您曾经使用过那种需要您按下一个按钮、等待片刻、然后再按另一个按钮的翻译应用，您就会明白*翻译*和*实时翻译*之间的巨大鸿沟。前者是一种工具，后者则是一种对话。在普通的电话通话中弥合这种鸿沟远比听起来要难得多，因为电话网络的设计初衷并非如此。

本文将从用户的角度解释为什么实时语音翻译如此困难——而不会深入探讨具体的实现方案。

“实时”的真正含义

实时意味着对话以人类对话的速度进行。实际上，这意味着从一方停止说话到另一方开始听到翻译之间大约有半秒的延迟。延迟超过半秒，通话就会感觉像在用对讲机。即使对于人类来说，低于 500 毫秒的延迟也很少见。

要达到这个目标，需要一系列操作快速完成：

1. 系统需要知道句子何时结束。这听起来很简单，但实际上并非如此。手机会携带呼吸声、环境噪音和一些杂音，这些声音对于简单的语音识别器来说可能看起来像是语音。

2. 系统需要理解所说的话。语音识别技术比十年前有了很大的进步，但口音、方言和糟糕的通话质量仍然会干扰模型。

3. 系统需要准确翻译。逐字翻译在语序不同的语言中经常会产生无意义的结果。句子级翻译更准确，但速度较慢。

4. 系统需要用一种听起来不像机器人播报新闻的声音复述翻译结果。

这四个步骤中的每一个都会占用一定的延迟预算。系统大约只有半秒钟的时间来完成所有四个步骤。

用于处理两个浏览器之间视频通话的应用程序拥有电话通话所不具备的几项功能：

更高的音频质量。浏览器音频以录音棚级别的音质运行。而电话通话则以网络在 20 世纪 80 年代设计的低保真音频规范运行——频率范围更窄，压缩失真更多。语音识别在浏览器音频上比在电话音频上拥有更多可用的信息。

电话网络最大的限制也是它最大的优势：接收方无需安装任何应用程序。 这正是翻译电话如此实用的原因所在，它可以帮助我们联系到祖父母、供应商、热线工作人员以及任何不需要安装任何软件的人。将技术上的复杂性隐藏在“像平常一样接听电话”的背后，这才是真正的产品优势。

一次流畅的实时翻译通话，每个方向的耗时大致如下：

总计：中位数约为 600 毫秒，在嘈杂的通话中偶尔会达到 1 秒。这就是为什么实时翻译通话感觉像是略有延迟的卫星通话。

系统运行良好的几个标志：

实时人工智能翻译并非万能。有些因素仍然会影响翻译质量：

更准确的说法是：实时人工智能翻译能够出色地处理对话中的大部分内容。而极少数极端情况——仅用于闲聊的通话和涉及高风险领域的专业通话——有时需要人工翻译。