← all posts·2026-04-28·8 min

语音保留翻译：能力、同意与克隆的伦理

当我们把 Owaa 描述为“用您自己的声音进行实时翻译通话”时，人们自然会提出两个后续问题：

1. *如何* 在不同语言之间保留说话者的声音？

2. 这是否应该被允许？

这两个问题都需要明确的答案。本文将给出答案。

三种常被称为“语音保留”的技术

“语音保留”这个词经常被滥用。它实际上包含三种不同的技术：

1. 语音匹配（基于目录）

系统会从一个高质量、自然流畅的语音库中选择最合适的语音。该语音库包含数十种语音，涵盖不同的性别、语域、语言背景和情感基调。系统会聆听说话者几秒钟，对其进行分类（性别、大致语域、年龄范围），然后选择最接近的语音库语音。由于通话双方在整个过程中都使用相同的语音库语音，因此不同语言的输出结果保持一致。

隐私影响： 零。不采集任何生物识别数据。听者听到的“声音”是一种股票资产。

2. 语音克隆（基于模型）

使用录制的样本（通常为 30-60 秒的清晰语音）训练每个用户的语音模型。然后，该模型可以合成*特定用户*的任何支持语言的声音。这就是大多数人听到“你的跨语言声音”时所想象的。

隐私影响： 实质性影响。语音样本属于生物识别数据。存储、保留、删除和访问控制均具有法律效力，尤其是在 GDPR、CCPA 和 BIPA（伊利诺伊州）等法规的约束下。

3. 生物识别数据采集（持续性）

在日常通话期间进行后台语音录制，用于随着时间的推移完善用户画像。用户可能并未意识到这一点。

隐私影响： 严重影响。未经明确、细致、持续的同意，通常禁止此类行为。

Owaa 的现状

第一阶段（当前）提供选项 1：基于目录的语音匹配。不会采集任何生物特征数据。说话者会听到对方用高质量的 TTS 语音模拟的声音，该声音与其大致音色相匹配，但使用的是预设语音。

第二阶段（计划中）将增加选项 2，该选项需要用户明确选择加入，并采用 12 个月的数据保留政策。说话者在明确同意的情况下录制一小段语音样本，模型经过训练后，其翻译后的声音听起来就像是*他们*本人的声音。用户可以随时撤销并删除模型，即使没有明确撤销，数据保留期也为 12 个月。

我们永远不会推出选项 3。

为什么同意机制比模型本身更重要

克隆语音的技术现在已经非常普及——开源模型只需 30 秒的音频就能生成逼真的克隆语音。难点不在于模型本身。它确保：

用户知晓此事正在发生。

用户可以拒绝，而不会影响产品的其他功能。

数据可移植且可删除。

使用范围有限（仅限翻译通话，而非一般身份冒用）。

数据保留期限有限（12 个月）。

用户可随时撤销同意。

如果其中任何一项出错，你推出的就是一款披着翻译产品外衣的监控产品。模型本身并不难理解。

这对用户的实际意义

如果您今天拨打我们的热线电话（第一阶段），没有人会录音或克隆您的声音。您会听到翻译后的语音，并配以与您的语调基本匹配的预设语音。仅此而已。

第二阶段发布后，我们会以清晰易懂的语言，在任何录音发生之前，明确地询问您是否要启用语音克隆功能。如果您不启用，您将继续使用第一阶段的体验。如果您选择启用此功能，则该功能仅对您的帐户生效，并可使用上述控制选项。

我们将在第二阶段上线前，在合规页面上发布完整的同意流程和数据保留政策。

通话的另一方呢？

重要的不对称性：在任何翻译通话中，被叫方听到的都是由人工智能生成的来电者语音。他们听不到来电者用自己语言的原始语音。因此，被叫方不会遇到任何新的情况——他们只是像往常一样接听电话。

然而，问题在于是否应该告知被叫方此次通话是由人工智能辅助的。不同司法管辖区有不同的规定：

美国《电话消费者保护法》(TCPA)目前不要求披露人工智能辅助翻译的信息，但要求披露自动拨号外呼的信息。

**欧盟《人工智能法案》(截至撰写本文时)将翻译系统归类为“有限风险”，并建议用户知情，而非获得同意。

部分运营商要求在呼出电话中，任何经过人工智能处理的语音都必须发出提示音或语音播报。

如有任何疑问，我们的默认做法是进行告知。通过客服人员拨打的呼出电话，接收方会听到简短的“已启用翻译”提示。热线（呼入）无需进行告知，因为呼入用户已选择接入系统。

最终结果

语音保留翻译功能在严格的用户许可设计和明确的保留规则下，是一项强大的功能。但如果缺乏这些，它就会令人感到不安。企业失败的原因不在于技术层面，而在于政策层面。Owaa 的书面计划是先制定政策，再构建模型。