← all posts··8 min

語音保留翻譯:能力、同意與複製的倫理

當我們把 Owaa 描述為「用您自己的聲音進行即時翻譯通話」時,人們自然會提出兩個後續問題:

1. *如何* 在不同語言之間保留說話者的聲音?

2. 這是否應該被允許?

這兩個問題都需要明確的答案。本文將給出答案。

三種常被稱為「語音保留」的技術

「語音保留」這個詞經常被濫用。它實際上包含三種不同的技術:

1. 語音配對(基於目錄)

系統會從一個高品質、自然流暢的語音庫中選擇最合適的語音。此語音庫包含數十種語音,涵蓋不同的性別、語域、語言背景和情緒基調。系統會聆聽說話者幾秒鐘,對其進行分類(性別、大致語域、年齡範圍),然後選擇最接近的語音庫語音。由於通話雙方在整個過程中都使用相同的語音庫語音,因此不同語言的輸出結果保持一致。

隱私影響: 零。不採集任何生物辨識數據。聽者聽到的「聲音」是一種股票資產。

2. 語音克隆(基於模型)

使用錄製的樣本(通常為 30-60 秒的清晰語音)訓練每個使用者的語音模型。然後,該模型可以合成*特定使用者*的任何支援語言的聲音。這就是大多數人聽到「你的跨語言聲音」時所想的。

隱私影響: 實質影響。語音樣本屬於生物辨識資料。儲存、保留、刪除和存取控制均具有法律效力,尤其是在 GDPR、CCPA 和 BIPA(伊利諾伊州)等法規的約束下。

3. 生物辨識資料收集(持續性)

在日常通話期間進行背景語音錄製,用於隨著時間的推移完善用戶畫像。用戶可能並未意識到這一點。

隱私影響: 嚴重影響。未經明確、細緻、持續的同意,通常禁止此類行為。

Owaa 的現狀

第一階段(目前)提供選項 1:基於目錄的語音配對。不會採集任何生物特徵資料。說話者會聽到對方用高品質的 TTS 語音模擬的聲音,該聲音與其大致音色相匹配,但使用的是預設語音。

第二階段(計畫中)將增加選項 2,該選項需要用戶明確選擇加入,並採用 12 個月的資料保留政策。說話者在明確同意的情況下錄製一小段語音樣本,模型經過訓練後,其翻譯後的聲音聽起來就像是*他們*本人的聲音。使用者可以隨時撤銷並刪除模型,即使沒有明確撤銷,資料保留期也為 12 個月。

我們永遠不會推出選項 3。

為什麼同意機制比模型本身更重要

克隆語音的技術現在已經非常普及——開源模型只需 30 秒的音訊就能產生逼真的克隆語音。難點不在於模型本身。它確保:

  • 用戶知曉此事正在發生。
  • 使用者可以拒絕,而不會影響產品的其他功能。
  • 資料可攜性且可刪除。
  • 使用範圍有限(僅限翻譯通話,而非一般身分冒用)。
  • 資料保留期限有限(12 個月)。
  • 使用者可隨時撤銷同意。

如果其中任何一項出錯,你推出的就是披著翻譯產品外套的監控產品。模型本身並不難理解。

這對使用者的實際意義

如果您今天撥打我們的熱線電話(第一階段),沒有人會錄音或複製您的聲音。您會聽到翻譯後的語音,並配以與您的語調基本匹配的預設語音。僅此而已。

第二階段發布後,我們會以清晰易懂的語言,在任何錄音發生之前,明確地詢問您是否要啟用語音複製功能。如果您不啟用,您將繼續使用第一階段的體驗。如果您選擇啟用此功能,則該功能僅對您的帳戶生效,並可使用上述控制選項。

我們將在第二階段上線前,在合規頁面上發布完整的同意流程和資料保留政策。

通話的另一方呢?

重要的不對稱性:在任何翻譯通話中,被叫方聽到的都是由人工智慧產生的來電者語音。他們聽不到來電者用自己語言的原始語音。因此,被叫方不會遇到任何新的情況——他們只是像往常一樣接聽電話。

然而,問題在於是否應該告知被叫方這通通話是由人工智慧輔助的。不同司法管轄區有不同的規定:

  • 美國《電話消費者保護法》(TCPA)目前不要求披露人工智慧輔助翻譯的訊息,但要求披露自動撥號外呼的信息。
  • **歐盟《人工智慧法案》(截至撰寫本文時)將翻譯系統歸類為“有限風險”,並建議用戶知情,而非獲得同意。
  • 部分業者要求在呼出電話中,任何經過人工智慧處理的語音都必須發出提示音或語音播報。

如有任何疑問,我們的預設做法是進行告知。透過客服人員撥打的來電,接收者會聽到簡短的「已啟用翻譯」提示。熱線(呼入)無需告知,因為呼入使用者已選擇接入系統。

最終結果

語音保留翻譯功能在嚴格的使用者授權設計和明確的保留規則下,是一項強大的功能。但如果缺乏這些,它就會令人感到不安。企業失敗的原因不在於技術層面,而在於政策層面。 Owaa 的書面計畫是先制定政策,再建構模型。

閱讀更多

語音保留翻譯:能力、同意與複製的倫理 · Owaa