Traducción con preservación de la voz: capacidad, consentimiento y la ética de la clonación
Cuando describimos Owaa como "llamadas traducidas en tiempo real con tu propia voz", surgen dos preguntas lógicas:
1. ¿Cómo se preserva la voz del interlocutor en todos los idiomas?
2. ¿Debería permitirse esto?
Ambas preguntas merecen respuestas claras. Este artículo las ofrece.
Tres aspectos que a menudo se denominan "preservación de la voz"
El término se usa de forma imprecisa. Existen tres aspectos realmente diferentes:
1. Coincidencia de voz (basada en catálogo)
El sistema selecciona la voz más adecuada de un catálogo de voces naturales de alta calidad. El catálogo contiene docenas de voces que varían en género, registro, origen lingüístico y tono emocional. El sistema escucha al interlocutor durante unos segundos, lo clasifica (género, registro aproximado, rango de edad) y elige la voz del catálogo que más se aproxima. La traducción se mantiene consistente en todos los idiomas porque se utiliza la misma voz del catálogo para cada interlocutor durante toda la llamada.
Impacto en la privacidad: cero. No se capturan datos biométricos. La "voz" que escucha el oyente es un activo de la plataforma.
2. Clonación de voz (basada en modelos)
Se entrena un modelo de voz por usuario a partir de una muestra grabada (normalmente de 30 a 60 segundos de habla clara). El modelo puede sintetizar la voz de *esa persona específica* en cualquier idioma compatible. Esto es lo que la mayoría de la gente imagina cuando escucha "tu voz en diferentes idiomas".
Impacto en la privacidad: considerable. La muestra de voz es biométrica. El almacenamiento, la retención, la eliminación y los controles de acceso tienen implicaciones legales, especialmente en virtud del RGPD, la CCPA y la BIPA (Illinois).
3. Captura biométrica (continua)
Grabación de voz en segundo plano durante llamadas regulares, utilizada para refinar un perfil con el tiempo. Es posible que los usuarios no se den cuenta de que esto está ocurriendo.
Impacto en la privacidad: grave. Sin un consentimiento explícito, detallado y continuo, esto está generalmente prohibido.
Situación actual de Owaa
La Fase 1 (actual) incluye la opción 1: comparación de voz basada en catálogo. No se capturan datos biométricos. El hablante escucha a la otra persona con una voz de síntesis de voz de alta calidad que coincide con su timbre general, pero se trata de una voz genérica.
La Fase 2 —planificada— añade la opción 2 con consentimiento explícito y una política de retención de 12 meses. El hablante grabaría una breve muestra con su consentimiento explícito, se entrenaría el modelo y, a partir de entonces, su voz traducida en todos los idiomas sonaría como *ella*. Los usuarios pueden revocar y eliminar el modelo en cualquier momento, con un límite de tiempo de vida (TTL) de 12 meses incluso sin una revocación explícita.
Nunca implementaremos la opción 3.
Por qué el diseño del consentimiento es más importante que el modelo
La capacidad técnica para clonar una voz está ahora ampliamente disponible: los modelos de código abierto pueden producir un clon plausible a partir de 30 segundos de audio. La dificultad no reside en el modelo. Se trata de garantizar lo siguiente:
- Que el usuario sepa lo que está sucediendo.
- Que el usuario pueda rechazarlo sin perder el resto del producto.
- Que los datos sean portátiles y eliminables.
- Que el uso esté limitado (solo llamadas traducidas, no suplantación de identidad general).
- Que la retención sea limitada (12 meses).
- Que el consentimiento sea revocable en cualquier momento.
Si fallas en cualquiera de estos puntos, habrás lanzado un producto de vigilancia disfrazado de producto de traducción. El modelo es la parte fácil.
Qué significa esto en la práctica para los usuarios
Si llamas hoy a nuestra línea directa (Fase 1), nadie grabará ni clonará tu voz. Escucharás una voz traducida sobre una voz de catálogo que se ajusta razonablemente a tu tono. Eso es todo.
Cuando se lance la Fase 2, se te preguntará —de forma explícita, en lenguaje claro, antes de que se realice cualquier grabación— si deseas habilitar la clonación de voz. Si no lo haces, mantendrás la experiencia de la Fase 1. Si lo haces, la función estará activada *solo para tu cuenta*, con los controles mencionados anteriormente.
Publicaremos el flujo de consentimiento completo y la política de retención en la página de Cumplimiento antes del lanzamiento de la Fase 2.
¿Qué ocurre con la otra parte de la llamada?
Asimetría importante: la persona que recibe la llamada escucha la versión de la persona que llama generada por IA. No escucha la voz original de la persona que llama en su idioma. Por lo tanto, no se enfrenta a nada nuevo; simplemente recibe una llamada telefónica como de costumbre.
Sin embargo, surge la pregunta de si se debe informar a la persona que recibe la llamada de que la llamada está mediada por IA. Las normas varían según la jurisdicción:
- La TCPA (EE. UU.) no exige actualmente la divulgación de la traducción mediada por IA, pero sí la exige para las llamadas automáticas salientes.
- La Ley de IA de la UE (a la fecha de redacción de este documento) clasifica los sistemas de traducción como de "riesgo limitado" y recomienda que el usuario esté informado, no que dé su consentimiento.
- Algunas operadoras exigen un tono o anuncio audible para cualquier voz modificada por IA en las llamadas salientes.
Nuestra conducta predeterminada, ante la duda, es informar. El destinatario escucha un breve anuncio de "traducción habilitada" en las llamadas salientes realizadas a través del agente. La línea directa (llamadas entrantes) no necesita información, ya que la persona que llama eligió estar en el sistema.
¿Qué implica esto?
La traducción que conserva la voz es una función potente cuando se implementa con un diseño de consentimiento riguroso y reglas de retención claras. Sin embargo, resulta inquietante cuando se implementa sin ellas. El problema de las empresas no radica en el trabajo técnico, sino en las políticas. El plan de Owaa, por escrito, es priorizar el trabajo de políticas y, posteriormente, el desarrollo del modelo.