← all posts··8 min

语音保留翻译:能力、同意与克隆的伦理

当我们把 Owaa 描述为“用您自己的声音进行实时翻译通话”时,人们自然会提出两个后续问题:

1. *如何* 在不同语言之间保留说话者的声音?

2. 这是否应该被允许?

这两个问题都需要明确的答案。本文将给出答案。

三种常被称为“语音保留”的技术

“语音保留”这个词经常被滥用。它实际上包含三种不同的技术:

1. 语音匹配(基于目录)

系统会从一个高质量、自然流畅的语音库中选择最合适的语音。该语音库包含数十种语音,涵盖不同的性别、语域、语言背景和情感基调。系统会聆听说话者几秒钟,对其进行分类(性别、大致语域、年龄范围),然后选择最接近的语音库语音。由于通话双方在整个过程中都使用相同的语音库语音,因此不同语言的输出结果保持一致。

隐私影响: 零。不采集任何生物识别数据。听者听到的“声音”是一种股票资产。

2. 语音克隆(基于模型)

使用录制的样本(通常为 30-60 秒的清晰语音)训练每个用户的语音模型。然后,该模型可以合成*特定用户*的任何支持语言的声音。这就是大多数人听到“你的跨语言声音”时所想象的。

隐私影响: 实质性影响。语音样本属于生物识别数据。存储、保留、删除和访问控制均具有法律效力,尤其是在 GDPR、CCPA 和 BIPA(伊利诺伊州)等法规的约束下。

3. 生物识别数据采集(持续性)

在日常通话期间进行后台语音录制,用于随着时间的推移完善用户画像。用户可能并未意识到这一点。

隐私影响: 严重影响。未经明确、细致、持续的同意,通常禁止此类行为。

Owaa 的现状

第一阶段(当前)提供选项 1:基于目录的语音匹配。不会采集任何生物特征数据。说话者会听到对方用高质量的 TTS 语音模拟的声音,该声音与其大致音色相匹配,但使用的是预设语音。

第二阶段(计划中)将增加选项 2,该选项需要用户明确选择加入,并采用 12 个月的数据保留政策。说话者在明确同意的情况下录制一小段语音样本,模型经过训练后,其翻译后的声音听起来就像是*他们*本人的声音。用户可以随时撤销并删除模型,即使没有明确撤销,数据保留期也为 12 个月。

我们永远不会推出选项 3。

为什么同意机制比模型本身更重要

克隆语音的技术现在已经非常普及——开源模型只需 30 秒的音频就能生成逼真的克隆语音。难点不在于模型本身。它确保:

  • 用户知晓此事正在发生。
  • 用户可以拒绝,而不会影响产品的其他功能。
  • 数据可移植且可删除。
  • 使用范围有限(仅限翻译通话,而非一般身份冒用)。
  • 数据保留期限有限(12 个月)。
  • 用户可随时撤销同意。

如果其中任何一项出错,你推出的就是一款披着翻译产品外衣的监控产品。模型本身并不难理解。

这对用户的实际意义

如果您今天拨打我们的热线电话(第一阶段),没有人会录音或克隆您的声音。您会听到翻译后的语音,并配以与您的语调基本匹配的预设语音。仅此而已。

第二阶段发布后,我们会以清晰易懂的语言,在任何录音发生之前,明确地询问您是否要启用语音克隆功能。如果您不启用,您将继续使用第一阶段的体验。如果您选择启用此功能,则该功能仅对您的帐户生效,并可使用上述控制选项。

我们将在第二阶段上线前,在合规页面上发布完整的同意流程和数据保留政策。

通话的另一方呢?

重要的不对称性:在任何翻译通话中,被叫方听到的都是由人工智能生成的来电者语音。他们听不到来电者用自己语言的原始语音。因此,被叫方不会遇到任何新的情况——他们只是像往常一样接听电话。

然而,问题在于是否应该告知被叫方此次通话是由人工智能辅助的。不同司法管辖区有不同的规定:

  • 美国《电话消费者保护法》(TCPA)目前不要求披露人工智能辅助翻译的信息,但要求披露自动拨号外呼的信息。
  • **欧盟《人工智能法案》(截至撰写本文时)将翻译系统归类为“有限风险”,并建议用户知情,而非获得同意。
  • 部分运营商要求在呼出电话中,任何经过人工智能处理的语音都必须发出提示音或语音播报。

如有任何疑问,我们的默认做法是进行告知。通过客服人员拨打的呼出电话,接收方会听到简短的“已启用翻译”提示。热线(呼入)无需进行告知,因为呼入用户已选择接入系统。

最终结果

语音保留翻译功能在严格的用户许可设计和明确的保留规则下,是一项强大的功能。但如果缺乏这些,它就会令人感到不安。企业失败的原因不在于技术层面,而在于政策层面。Owaa 的书面计划是先制定政策,再构建模型。

阅读更多

语音保留翻译:能力、同意与克隆的伦理 · Owaa