語音保留翻譯:能力、同意與複製的倫理
當我們把 Owaa 描述為「用您自己的聲音進行即時翻譯通話」時,人們自然會提出兩個後續問題:
1. *如何* 在不同語言之間保留說話者的聲音?
2. 這是否應該被允許?
這兩個問題都需要明確的答案。本文將給出答案。
三種常被稱為「語音保留」的技術
「語音保留」這個詞經常被濫用。它實際上包含三種不同的技術:
1. 語音配對(基於目錄)
系統會從一個高品質、自然流暢的語音庫中選擇最合適的語音。此語音庫包含數十種語音,涵蓋不同的性別、語域、語言背景和情緒基調。系統會聆聽說話者幾秒鐘,對其進行分類(性別、大致語域、年齡範圍),然後選擇最接近的語音庫語音。由於通話雙方在整個過程中都使用相同的語音庫語音,因此不同語言的輸出結果保持一致。
隱私影響: 零。不採集任何生物辨識數據。聽者聽到的「聲音」是一種股票資產。
2. 語音克隆(基於模型)
使用錄製的樣本(通常為 30-60 秒的清晰語音)訓練每個使用者的語音模型。然後,該模型可以合成*特定使用者*的任何支援語言的聲音。這就是大多數人聽到「你的跨語言聲音」時所想的。
隱私影響: 實質影響。語音樣本屬於生物辨識資料。儲存、保留、刪除和存取控制均具有法律效力,尤其是在 GDPR、CCPA 和 BIPA(伊利諾伊州)等法規的約束下。
3. 生物辨識資料收集(持續性)
在日常通話期間進行背景語音錄製,用於隨著時間的推移完善用戶畫像。用戶可能並未意識到這一點。
隱私影響: 嚴重影響。未經明確、細緻、持續的同意,通常禁止此類行為。
Owaa 的現狀
第一階段(目前)提供選項 1:基於目錄的語音配對。不會採集任何生物特徵資料。說話者會聽到對方用高品質的 TTS 語音模擬的聲音,該聲音與其大致音色相匹配,但使用的是預設語音。
第二階段(計畫中)將增加選項 2,該選項需要用戶明確選擇加入,並採用 12 個月的資料保留政策。說話者在明確同意的情況下錄製一小段語音樣本,模型經過訓練後,其翻譯後的聲音聽起來就像是*他們*本人的聲音。使用者可以隨時撤銷並刪除模型,即使沒有明確撤銷,資料保留期也為 12 個月。
我們永遠不會推出選項 3。
為什麼同意機制比模型本身更重要
克隆語音的技術現在已經非常普及——開源模型只需 30 秒的音訊就能產生逼真的克隆語音。難點不在於模型本身。它確保:
- 用戶知曉此事正在發生。
- 使用者可以拒絕,而不會影響產品的其他功能。
- 資料可攜性且可刪除。
- 使用範圍有限(僅限翻譯通話,而非一般身分冒用)。
- 資料保留期限有限(12 個月)。
- 使用者可隨時撤銷同意。
如果其中任何一項出錯,你推出的就是披著翻譯產品外套的監控產品。模型本身並不難理解。
這對使用者的實際意義
如果您今天撥打我們的熱線電話(第一階段),沒有人會錄音或複製您的聲音。您會聽到翻譯後的語音,並配以與您的語調基本匹配的預設語音。僅此而已。
第二階段發布後,我們會以清晰易懂的語言,在任何錄音發生之前,明確地詢問您是否要啟用語音複製功能。如果您不啟用,您將繼續使用第一階段的體驗。如果您選擇啟用此功能,則該功能僅對您的帳戶生效,並可使用上述控制選項。
我們將在第二階段上線前,在合規頁面上發布完整的同意流程和資料保留政策。
通話的另一方呢?
重要的不對稱性:在任何翻譯通話中,被叫方聽到的都是由人工智慧產生的來電者語音。他們聽不到來電者用自己語言的原始語音。因此,被叫方不會遇到任何新的情況——他們只是像往常一樣接聽電話。
然而,問題在於是否應該告知被叫方這通通話是由人工智慧輔助的。不同司法管轄區有不同的規定:
- 美國《電話消費者保護法》(TCPA)目前不要求披露人工智慧輔助翻譯的訊息,但要求披露自動撥號外呼的信息。
- **歐盟《人工智慧法案》(截至撰寫本文時)將翻譯系統歸類為“有限風險”,並建議用戶知情,而非獲得同意。
- 部分業者要求在呼出電話中,任何經過人工智慧處理的語音都必須發出提示音或語音播報。
如有任何疑問,我們的預設做法是進行告知。透過客服人員撥打的來電,接收者會聽到簡短的「已啟用翻譯」提示。熱線(呼入)無需告知,因為呼入使用者已選擇接入系統。
最終結果
語音保留翻譯功能在嚴格的使用者授權設計和明確的保留規則下,是一項強大的功能。但如果缺乏這些,它就會令人感到不安。企業失敗的原因不在於技術層面,而在於政策層面。 Owaa 的書面計畫是先制定政策,再建構模型。