← all posts·2026-04-28·8 min

語音保留翻譯：能力、同意與複製的倫理

當我們把 Owaa 描述為「用您自己的聲音進行即時翻譯通話」時，人們自然會提出兩個後續問題：

1. *如何* 在不同語言之間保留說話者的聲音？

2. 這是否應該被允許？

這兩個問題都需要明確的答案。本文將給出答案。

三種常被稱為「語音保留」的技術

「語音保留」這個詞經常被濫用。它實際上包含三種不同的技術：

系統會從一個高品質、自然流暢的語音庫中選擇最合適的語音。此語音庫包含數十種語音，涵蓋不同的性別、語域、語言背景和情緒基調。系統會聆聽說話者幾秒鐘，對其進行分類（性別、大致語域、年齡範圍），然後選擇最接近的語音庫語音。由於通話雙方在整個過程中都使用相同的語音庫語音，因此不同語言的輸出結果保持一致。

隱私影響： 零。不採集任何生物辨識數據。聽者聽到的「聲音」是一種股票資產。

使用錄製的樣本（通常為 30-60 秒的清晰語音）訓練每個使用者的語音模型。然後，該模型可以合成*特定使用者*的任何支援語言的聲音。這就是大多數人聽到「你的跨語言聲音」時所想的。

隱私影響： 實質影響。語音樣本屬於生物辨識資料。儲存、保留、刪除和存取控制均具有法律效力，尤其是在 GDPR、CCPA 和 BIPA（伊利諾伊州）等法規的約束下。

在日常通話期間進行背景語音錄製，用於隨著時間的推移完善用戶畫像。用戶可能並未意識到這一點。

隱私影響： 嚴重影響。未經明確、細緻、持續的同意，通常禁止此類行為。

第一階段（目前）提供選項 1：基於目錄的語音配對。不會採集任何生物特徵資料。說話者會聽到對方用高品質的 TTS 語音模擬的聲音，該聲音與其大致音色相匹配，但使用的是預設語音。

第二階段（計畫中）將增加選項 2，該選項需要用戶明確選擇加入，並採用 12 個月的資料保留政策。說話者在明確同意的情況下錄製一小段語音樣本，模型經過訓練後，其翻譯後的聲音聽起來就像是*他們*本人的聲音。使用者可以隨時撤銷並刪除模型，即使沒有明確撤銷，資料保留期也為 12 個月。

我們永遠不會推出選項 3。

克隆語音的技術現在已經非常普及——開源模型只需 30 秒的音訊就能產生逼真的克隆語音。難點不在於模型本身。它確保：

如果其中任何一項出錯，你推出的就是披著翻譯產品外套的監控產品。模型本身並不難理解。

如果您今天撥打我們的熱線電話（第一階段），沒有人會錄音或複製您的聲音。您會聽到翻譯後的語音，並配以與您的語調基本匹配的預設語音。僅此而已。

第二階段發布後，我們會以清晰易懂的語言，在任何錄音發生之前，明確地詢問您是否要啟用語音複製功能。如果您不啟用，您將繼續使用第一階段的體驗。如果您選擇啟用此功能，則該功能僅對您的帳戶生效，並可使用上述控制選項。

我們將在第二階段上線前，在合規頁面上發布完整的同意流程和資料保留政策。

重要的不對稱性：在任何翻譯通話中，被叫方聽到的都是由人工智慧產生的來電者語音。他們聽不到來電者用自己語言的原始語音。因此，被叫方不會遇到任何新的情況——他們只是像往常一樣接聽電話。

然而，問題在於是否應該告知被叫方這通通話是由人工智慧輔助的。不同司法管轄區有不同的規定：

如有任何疑問，我們的預設做法是進行告知。透過客服人員撥打的來電，接收者會聽到簡短的「已啟用翻譯」提示。熱線（呼入）無需告知，因為呼入使用者已選擇接入系統。

語音保留翻譯功能在嚴格的使用者授權設計和明確的保留規則下，是一項強大的功能。但如果缺乏這些，它就會令人感到不安。企業失敗的原因不在於技術層面，而在於政策層面。 Owaa 的書面計畫是先制定政策，再建構模型。