← all posts·2026-04-28·7 min

為什麼電話通話中的即時語音翻譯如此困難

如果您曾經使用過那種需要您按下一個按鈕、等待片刻、然後再按另一個按鈕的翻譯應用，您就會明白*翻譯*和*實時翻譯*之間的巨大鴻溝。前者是一種工具，後者則是一種對話。在普通的電話通話中彌合這種鴻溝遠比聽起來要難得多，因為電話網路的設計初衷並非如此。

本文將從使用者的角度解釋為什麼即時語音翻譯如此困難——而不會深入探討具體的實現方案。

「即時」的真正意義

即時意味著對話以人類對話的速度進行。實際上，這意味著從一方停止說話到另一方開始聽到翻譯之間大約有半秒的延遲。延遲超過半秒，通話就會感覺像在用對講機。即使對於人類來說，低於 500 毫秒的延遲也很少見。

要達到這個目標，需要一系列操作快速完成：

1. 系統需要知道句子何時結束。這聽起來很簡單，但實際上並非如此。手機會攜帶呼吸聲、環境噪音和一些雜音，這些聲音對於簡單的語音辨識器來說可能看起來像是語音。

2. 系統需要理解所說的話。語音辨識技術比十年前有了很大的進步，但口音、方言和糟糕的通話品質仍然會幹擾模型。

3. 系統需要準確翻譯。逐字翻譯在語序不同的語言中經常會產生無意義的結果。句子級翻譯較準確，但速度較慢。

4. 系統需要用一種聽起來不像機器人播報新聞的聲音複述翻譯結果。

這四個步驟中的每一個都會佔用一定的延遲預算。系統大約只有半秒鐘的時間來完成所有四個步驟。

用於處理兩個瀏覽器之間視訊通話的應用程式擁有電話通話所不具備的幾項功能：

更高的音訊品質。 瀏覽器音訊以錄音室等級的音質運作。而電話通話則以網路在 20 世紀 80 年代設計的低保真音訊規格運作——頻率範圍更窄，壓縮失真更多。語音辨識在瀏覽器音訊上比在電話音訊上擁有更多可用的信息。

電話網路最大的限制也是它最大的優點：接收者無需安裝任何應用程式。 這正是翻譯電話如此實用的原因所在，它可以幫助我們聯繫到祖父母、供應商、熱線工作人員以及任何不需要安裝任何軟體的人。將技術上的複雜性隱藏在「像平常一樣接聽電話」的背後，這才是真正的產品優勢。

一次流暢的即時翻譯通話，每個方向的耗時大致如下：

總計：中位數約為 600 毫秒，在吵雜的通話中偶爾會達到 1 秒。這就是為什麼即時翻譯通話感覺像是略有延遲的衛星通話。

系統運作良好的幾個標誌：

即時人工智慧翻譯並非萬能。有些因素仍然會影響翻譯品質：

更準確的說法是：即時人工智慧翻譯能夠出色地處理對話中的大部分內容。而極少數極端情況——僅用於閒聊的通話和涉及高風險領域的專業通話——有時需要人工翻譯。