Перевод с сохранением голоса: возможности, согласие и этика клонирования
Когда мы описываем Owaa как «перевод звонков в реальном времени вашим собственным голосом», разумные люди задают два дополнительных вопроса:
1. *Как* вы сохраняете голос говорящего на разных языках?
2. Должно ли это вообще быть разрешено?
Оба вопроса заслуживают четких ответов. В этом посте они даны.
Три вещи, которые часто называют «сохранением голоса»
Это выражение используется в широком смысле. Есть три действительно разных вещи:
1. Подбор голоса (на основе каталога)
Система выбирает наиболее подходящий голос из каталога высококачественных, естественно звучащих голосов. Каталог содержит десятки голосов, различающихся по полу, регистру, языковому фону и эмоциональному тону. Система слушает говорящего в течение нескольких секунд, классифицирует его (пол, приблизительный регистр, возрастной диапазон) и выбирает наиболее близкий голос из каталога. Результат на разных языках остается согласованным, поскольку один и тот же голос из каталога используется для каждой стороны на протяжении всего звонка. Последствия для конфиденциальности: нулевые. Биометрические данные не собираются. «Голос», который слышит слушатель, является ценным активом.
2. Клонирование голоса (на основе модели)
Обучение модели голоса для каждого пользователя на основе записанного образца (обычно 30–60 секунд четкой речи). Затем модель может синтезировать голос *этого конкретного человека* на любом поддерживаемом языке. Именно это большинство людей представляют себе, когда слышат «ваш голос на разных языках».
Последствия для конфиденциальности: существенные. Образец голоса является биометрическим. Хранение, сохранение, удаление и контроль доступа имеют юридическую силу, особенно в соответствии с GDPR, CCPA и BIPA (Иллинойс).
3. Биометрический сбор (непрерывный)
Фоновая запись голоса во время обычных звонков, используемая для уточнения профиля с течением времени. Пользователи могут не осознавать, что это происходит.
Последствия для конфиденциальности: серьезные. Без явного, детального и непрерывного согласия это, как правило, запрещено.
Текущее состояние Owaa
Фаза 1 (текущая) включает вариант 1: сопоставление голосов на основе каталога. Биометрические данные не собираются. Говорящий слышит голос другого человека, воспроизведенный высококачественным синтезатором речи, соответствующим его общему тембру, но это стандартный голос.
Фаза 2 — запланированная — добавляет вариант 2 с явным согласием и политикой хранения данных в течение 12 месяцев. Говорящий записывает короткий образец с явного согласия, модель обучается, и с этого момента его переведенный голос на разных языках звучит как *он*. Пользователи могут отозвать и удалить модель в любое время, с жестким 12-месячным сроком действия даже без явного отзыва.
Мы никогда не будем использовать вариант 3.
Почему дизайн согласия важнее, чем модель
Техническая возможность клонирования голоса теперь широко доступна — модели с открытым исходным кодом могут создавать правдоподобный клон из 30 секунд аудио. Самая сложная часть — не модель. Сложность в том, чтобы убедиться:
- Пользователь знает, что это происходит.
- Пользователь может отказаться, не потеряв при этом остальную часть продукта.
- Данные переносимы и удаляемы.
- Использование ограничено (только перевод звонков, без общего подражания).
- Срок хранения ограничен (12 месяцев).
- Согласие может быть отозвано в любой момент.
Если вы допустите любую из этих ошибок, вы выпустите продукт для слежки, замаскированный под продукт для перевода. Модель — это самая простая часть.
Что это означает на практике для пользователей
Если вы позвоните на нашу горячую линию сегодня (Фаза 1), никто не будет записывать или клонировать ваш голос. Вы услышите переведенный голос поверх стандартного голоса из каталога, который достаточно точно соответствует вашему тону. Вот и все.
Когда будет выпущена Фаза 2, вас спросят — явно, простым языком, до начала записи — хотите ли вы включить клонирование голоса. Если нет, вы сохраните опыт Фазы 1. Если вы это сделаете, функция будет включена *только для вашей учетной записи* с указанными выше настройками.
Мы опубликуем полный процесс получения согласия и политику хранения данных на странице Соответствие требованиям до запуска второго этапа.
А что насчет другой стороны звонка?
Важная асимметрия: звонящий в любом переведенном звонке слышит версию голоса звонящего, обработанную ИИ. Он не слышит голос звонящего на своем родном языке. Таким образом, звонящий не сталкивается ни с чем новым — он просто принимает телефонный звонок как обычно.
Однако возникает вопрос, следует ли сообщать звонящему, что звонок осуществляется с помощью ИИ. В разных юрисдикциях действуют разные правила:
- TCPA (США) в настоящее время не требует раскрытия информации о переводе с помощью ИИ, но требует для исходящих автоматических наборов.
- Закон ЕС об ИИ (на момент написания) классифицирует системы перевода как «ограниченный риск» и рекомендует информировать пользователя, а не давать согласие.
— Некоторые операторы связи требуют звукового сигнала или объявления для любого голоса, измененного ИИ, в исходящих звонках.
В случае сомнений мы обычно сообщаем об этом. Получатель слышит короткое объявление «перевод включен» в исходящих звонках, совершаемых через оператора. Горячая линия (входящие звонки) не требует уведомления, поскольку звонящий сам выбрал эту систему.
К чему это приводит
Перевод с сохранением голоса — мощная функция, если она реализована в рамках строгой системы согласия и четких правил хранения данных. Но если она реализована без этих правил, это становится пугающей функцией. Компании терпят неудачу не в технической работе, а в работе над политикой. В письменном виде план Owaa состоит в том, чтобы сначала выполнить работу над политикой, а затем — работу над моделью.