← all posts··8 min

Tradução com preservação da voz: capacidade, consentimento e a ética da clonagem

Quando descrevemos o Owaa como "chamadas traduzidas em tempo real com a sua própria voz", pessoas sensatas fazem duas perguntas subsequentes:

1. *Como* vocês preservam a voz do interlocutor em diferentes idiomas?

2. Isso deveria ser permitido?

Ambas as perguntas merecem respostas claras. Este artigo as fornece.

Três coisas frequentemente chamadas de "preservação da voz"

A expressão é usada de forma genérica. Existem três coisas realmente diferentes:

1. Correspondência de voz (baseada em catálogo)

O sistema seleciona a voz mais adequada de um catálogo de vozes naturais de alta qualidade. O catálogo contém dezenas de vozes que variam em gênero, registro, origem linguística e tom emocional. O sistema ouve o interlocutor por alguns segundos, classifica-o (gênero, registro aproximado, faixa etária) e seleciona a voz do catálogo que mais se aproxima. A saída em diferentes idiomas permanece consistente porque a mesma voz do catálogo é usada para cada lado durante toda a chamada.

Impacto na privacidade: zero. Nenhum dado biométrico é capturado. A "voz" que o ouvinte escuta é um ativo de estoque.

2. Clonagem de voz (baseada em modelo)

Treinar um modelo de voz específico para cada usuário a partir de uma amostra gravada (normalmente de 30 a 60 segundos de fala clara). O modelo pode então sintetizar a voz *daquela pessoa específica* em qualquer idioma compatível. É isso que a maioria das pessoas imagina quando ouve "sua voz em diferentes idiomas".

Impacto na privacidade: significativo. A amostra de voz é um dado biométrico. O armazenamento, a retenção, a exclusão e os controles de acesso têm peso legal, especialmente sob o GDPR, CCPA e BIPA (Illinois).

3. Captura biométrica (contínua)

Gravação em segundo plano da voz durante chamadas regulares, usada para refinar um perfil ao longo do tempo. Os usuários podem não perceber que isso está acontecendo.

Impacto na privacidade: grave. Sem consentimento explícito, detalhado e contínuo, isso geralmente é proibido.

Situação atual do Owaa

A Fase 1 (atual) oferece a opção 1: correspondência de voz baseada em catálogo. Nenhum dado biométrico é coletado. O falante ouve a outra pessoa reproduzida em uma voz TTS de alta qualidade que corresponde ao seu timbre geral, mas é uma voz padrão.

A Fase 2 — planejada — adiciona a opção 2 com consentimento explícito e uma política de retenção de 12 meses. O falante gravaria uma breve amostra com consentimento explícito, o modelo seria treinado e, a partir daí, sua voz traduzida em todos os idiomas soaria como *ele mesmo*. Os usuários podem revogar e excluir o modelo a qualquer momento, com um prazo de validade fixo de 12 meses, mesmo sem revogação explícita.

Nunca lançaremos a opção 3.

Por que o design de consentimento é mais importante do que o modelo

A capacidade técnica de clonar uma voz agora está amplamente disponível — modelos de código aberto podem produzir um clone plausível a partir de 30 segundos de áudio. A dificuldade não está no modelo. O objetivo é garantir que:

  • O usuário saiba que isso está acontecendo.
  • O usuário possa recusar sem perder o restante do produto.
  • Os dados sejam portáteis e possam ser excluídos.
  • O uso seja limitado (apenas chamadas traduzidas, não falsificação de identidade).
  • O período de retenção seja finito (12 meses).
  • O consentimento seja reversível a qualquer momento.

Se algum desses pontos estiver errado, você terá lançado um produto de vigilância disfarçado de produto de tradução. O modelo é a parte fácil.

O que isso significa na prática para os usuários

Se você ligar para nossa central de atendimento hoje (Fase 1), ninguém estará gravando ou clonando sua voz. Você ouvirá uma voz traduzida sobreposta a uma voz padrão de catálogo que seja razoavelmente semelhante ao seu tom. Só isso.

Quando a Fase 2 for lançada, você será perguntado — explicitamente, em linguagem clara, antes de qualquer gravação — se deseja habilitar a clonagem de voz. Caso contrário, você manterá a experiência da Fase 1. Se você fizer isso, o recurso estará ativado *somente para a sua conta*, com os controles acima.

Publicaremos o fluxo de consentimento completo e a política de retenção na página de Conformidade antes do lançamento da Fase 2.

E quanto ao outro lado da chamada?

Assimetria importante: o destinatário da chamada em qualquer chamada traduzida ouve a versão da voz do interlocutor gerada por IA. Ele não ouve a voz original do interlocutor em seu próprio idioma. Portanto, o destinatário da chamada não é exposto a nada de novo — ele está apenas recebendo uma ligação telefônica como de costume.

No entanto, existe a questão de se o destinatário da chamada deve ser informado de que a chamada é mediada por IA. Diferentes jurisdições têm regras diferentes:

  • A TCPA (EUA) atualmente não exige a divulgação para tradução mediada por IA, mas exige para discagem automática de saída.
  • A Lei de IA da UE (até a data desta publicação) classifica os sistemas de tradução como de "risco limitado" e recomenda a conscientização do usuário, não o consentimento.

Algumas operadoras exigem um tom ou anúncio audível para qualquer voz alterada por IA em chamadas de saída.

Em caso de dúvida, nosso comportamento padrão é informar. O destinatário ouve um breve anúncio de "tradução ativada" em chamadas de saída realizadas por meio do agente. A central de atendimento (chamadas de entrada) não precisa informar, pois a pessoa que ligou optou por participar do sistema.

O que isso significa

A tradução com preservação de voz é um recurso poderoso quando implementada com um sistema de consentimento rigoroso e regras claras de retenção. Sem esses elementos, torna-se um recurso invasivo. O problema das empresas não está na parte técnica, mas sim nas políticas. O plano da Owaa, por escrito, é priorizar as políticas e, em seguida, os modelos.

Leia mais

Tradução com preservação da voz: capacidade, consentimento e a ética da clonagem · Owaa