為什麼電話通話中的即時語音翻譯如此困難
如果您曾經使用過那種需要您按下一個按鈕、等待片刻、然後再按另一個按鈕的翻譯應用,您就會明白*翻譯*和*實時翻譯*之間的巨大鴻溝。前者是一種工具,後者則是一種對話。在普通的電話通話中彌合這種鴻溝遠比聽起來要難得多,因為電話網路的設計初衷並非如此。
本文將從使用者的角度解釋為什麼即時語音翻譯如此困難——而不會深入探討具體的實現方案。
「即時」的真正意義
即時意味著對話以人類對話的速度進行。實際上,這意味著從一方停止說話到另一方開始聽到翻譯之間大約有半秒的延遲。延遲超過半秒,通話就會感覺像在用對講機。即使對於人類來說,低於 500 毫秒的延遲也很少見。
要達到這個目標,需要一系列操作快速完成:
1. 系統需要知道句子何時結束。這聽起來很簡單,但實際上並非如此。手機會攜帶呼吸聲、環境噪音和一些雜音,這些聲音對於簡單的語音辨識器來說可能看起來像是語音。
2. 系統需要理解所說的話。語音辨識技術比十年前有了很大的進步,但口音、方言和糟糕的通話品質仍然會幹擾模型。
3. 系統需要準確翻譯。逐字翻譯在語序不同的語言中經常會產生無意義的結果。句子級翻譯較準確,但速度較慢。
4. 系統需要用一種聽起來不像機器人播報新聞的聲音複述翻譯結果。
這四個步驟中的每一個都會佔用一定的延遲預算。系統大約只有半秒鐘的時間來完成所有四個步驟。
為什麼電話通話比視訊通話更難
用於處理兩個瀏覽器之間視訊通話的應用程式擁有電話通話所不具備的幾項功能:
- 更高的音訊品質。 瀏覽器音訊以錄音室等級的音質運作。而電話通話則以網路在 20 世紀 80 年代設計的低保真音訊規格運作——頻率範圍更窄,壓縮失真更多。語音辨識在瀏覽器音訊上比在電話音訊上擁有更多可用的信息。
- 客戶端處理。 瀏覽器應用程式可以在使用者裝置上預處理音訊-迴聲消除、噪音抑制、句子邊界偵測。電話無法為通話發起方提供這些功能。
- 可控制的網路路徑。 瀏覽器可以協商兩個端點之間的路由。而電話通話則透過網路業者選擇的任何路徑進行。
- 備用螢幕。 視訊通話可以顯示字幕、語言選擇器和靜音按鈕。而電話通話只有音訊。
電話網路最大的限制也是它最大的優點:接收者無需安裝任何應用程式。 這正是翻譯電話如此實用的原因所在,它可以幫助我們聯繫到祖父母、供應商、熱線工作人員以及任何不需要安裝任何軟體的人。將技術上的複雜性隱藏在「像平常一樣接聽電話」的背後,這才是真正的產品優勢。
延遲的隱藏之處
一次流暢的即時翻譯通話,每個方向的耗時大致如下:
- 偵測句子結束:約 500 毫秒(經過精心調整-太短會導致通話中斷,太長會導致通話延遲)
- 辨識所說內容:句子結束後約 100 毫秒
- 翻譯成目標語言:約 100 毫秒
- 合成翻譯後的語音:約 150 毫秒
- 網路和協調開銷:約 100 毫秒
總計:中位數約為 600 毫秒,在吵雜的通話中偶爾會達到 1 秒。這就是為什麼即時翻譯通話感覺像是略有延遲的衛星通話。
優質翻譯的體驗
系統運作良好的幾個標誌:
- 雙方說話自然流暢。 無需「慢點說」的指導。每個字之間沒有停頓。
- 每位說話者都保持自己的聲音。 聽起來像機器人朗讀字幕的翻譯就像在進行外語通話。與說話者語調一致的翻譯則像是真實的對話。
- 可以隨時打斷。 真實的對話中會出現重疊。系統能夠處理這種情況,而不會中斷音訊。
- 支援語碼切換。 會說兩種語言的人常常會混合使用不同的語言。系統能夠很好地適應。
翻譯的不足之處
即時人工智慧翻譯並非萬能。有些因素仍然會影響翻譯品質:
- 濃重的方言。 主要語言的標準語音翻譯效果良好。但濃重的方言仍會為系統帶來挑戰。
- 多人同時說話。 系統的設計假設是一次只處理一個人的聲音。吵雜的環境會破壞這個假設。
- 輕聲細語或大聲喊叫。 識別模型針對正常音量進行了最佳化。音量異常會影響準確率。
- 高度專業化的術語。 日常通話效果很好。但涉及心胸外科手術或航空航天工程等主題的通話可能需要該領域的專家級人工翻譯。
更準確的說法是:即時人工智慧翻譯能夠出色地處理對話中的大部分內容。而極少數極端情況——僅用於閒聊的通話和涉及高風險領域的專業通話——有時需要人工翻譯。