Traduction préservant la voix : capacités, consentement et éthique du clonage
Lorsque nous décrivons Owaa comme des « appels traduits en temps réel avec votre propre voix », deux questions légitimes se posent :
1. *Comment* préservez-vous la voix de l’interlocuteur d’une langue à l’autre ?
2. Est-ce même acceptable ?
Ces deux questions méritent des réponses claires. Cet article y répond.
Trois choses souvent qualifiées de « préservation de la voix »
L’expression est souvent employée de manière imprécise. Il existe trois choses bien distinctes :
1. Correspondance vocale (basée sur un catalogue)
Le système sélectionne la voix la plus appropriée dans un catalogue de voix naturelles de haute qualité. Ce catalogue contient des dizaines de voix variant en genre, registre, origine linguistique et tonalité émotionnelle. Le système écoute l’interlocuteur pendant quelques secondes, le catégorise (genre, registre approximatif, tranche d’âge) et choisit la voix du catalogue la plus proche. La traduction reste cohérente d’une langue à l’autre car la même voix du catalogue est utilisée pour chaque interlocuteur tout au long de l’appel.
Empreinte de confidentialité : nulle. Aucune donnée biométrique n'est collectée. La « voix » entendue par l'utilisateur est une donnée biométrique.
2. Clonage vocal (basé sur un modèle)
Un modèle vocal spécifique à chaque utilisateur est entraîné à partir d'un échantillon enregistré (généralement 30 à 60 secondes de parole claire). Ce modèle peut ensuite synthétiser la voix de *cette personne* dans n'importe quelle langue prise en charge. C'est ce que la plupart des gens imaginent lorsqu'ils entendent « votre voix dans différentes langues ».
Empreinte de confidentialité : importante. L'échantillon vocal est une donnée biométrique. Le stockage, la conservation, la suppression et les contrôles d'accès ont tous une valeur juridique, notamment en vertu du RGPD, du CCPA et du BIPA (Illinois).
3. Capture biométrique (continue)
Enregistrement en arrière-plan de la voix pendant les appels, utilisé pour affiner un profil au fil du temps. Les utilisateurs peuvent ne pas se rendre compte de cela.
Empreinte de confidentialité : importante. Sans consentement explicite, précis et continu, cette pratique est généralement interdite.
Où en est Owaa aujourd'hui
La phase 1 (actuelle) propose l'option 1 : la reconnaissance vocale par catalogue. Aucune donnée biométrique n'est collectée. L'utilisateur entend la voix de l'autre personne rendue par une synthèse vocale de haute qualité, dont le timbre correspond au sien, mais il s'agit d'une voix standard.
La phase 2 — prévue — ajoutera l'option 2 avec consentement explicite et une politique de conservation de 12 mois. L'utilisateur enregistrera un court extrait vocal avec son consentement explicite, le modèle sera entraîné, et sa voix traduite dans différentes langues sera ensuite parfaitement identique à la sienne. Les utilisateurs peuvent révoquer et supprimer le modèle à tout moment, avec une durée de vie maximale (TTL) de 12 mois, même sans révocation explicite.
Nous ne proposerons jamais l'option 3.
Pourquoi la conception du consentement est plus importante que le modèle
La capacité technique de cloner une voix est désormais largement accessible : des modèles open source peuvent produire un clone plausible à partir de 30 secondes d'audio. La difficulté ne réside pas dans le modèle lui-même, mais dans le fait de s'assurer que :
- L'utilisateur est informé de la procédure.
- L'utilisateur peut refuser sans perdre le reste du produit.
- Les données sont portables et supprimables.
- L'utilisation est limitée (appels traduits uniquement, pas d'usurpation d'identité générale).
- La durée de conservation est limitée (12 mois).
- Le consentement est révocable à tout moment.
Si vous vous trompez sur l'un de ces points, vous commercialisez un produit de surveillance déguisé en produit de traduction. Le modèle est la partie la plus simple.
Ce que cela signifie concrètement pour les utilisateurs
Si vous appelez notre assistance téléphonique aujourd'hui (Phase 1), personne n'enregistre ni ne clone votre voix. Vous bénéficiez d'une traduction vocale sur une voix de catalogue dont le ton correspond raisonnablement au vôtre. C'est tout.
Lors du déploiement de la Phase 2, il vous sera demandé – explicitement, en langage clair, avant tout enregistrement – si vous souhaitez activer le clonage vocal. Si vous refusez, vous conservez l'expérience de la Phase 1. Si vous l'activez, la fonctionnalité est activée *uniquement pour votre compte*, avec les options mentionnées ci-dessus.
Nous publierons l'intégralité du processus de consentement et de la politique de conservation des données sur la page Conformité avant le lancement de la phase 2.
Qu'en est-il de l'autre partie de l'appel ?
Asymétrie importante : lors d'un appel traduit, le répondant entend la version de l'appelant rendue par l'IA. Il n'entend pas la voix originale de l'appelant dans sa langue maternelle. Le répondant n'est donc soumis à aucune nouveauté : il reçoit simplement un appel téléphonique comme d'habitude.
Se pose toutefois la question de savoir si le répondant doit être informé que l'appel est effectué par une IA. Les règles varient selon les juridictions :
- La TCPA (États-Unis) n'exige actuellement aucune divulgation pour la traduction effectuée par l'IA, mais l'exige pour la numérotation automatique sortante.
- La directive européenne sur l'IA (à la date de rédaction) classe les systèmes de traduction comme présentant un « risque limité » et recommande d'informer l'utilisateur, plutôt que de lui donner son consentement.
- Certains opérateurs exigent un signal sonore ou une annonce pour toute voix modifiée par l'IA lors d'appels sortants.
En cas de doute, notre comportement par défaut est de divulguer l'information. Le destinataire entend un bref message « Traduction activée » lors des appels sortants passés par l'agent. La ligne d'assistance (appels entrants) n'a pas besoin d'être informée, car l'appelant a choisi d'être enregistré dans le système.
Conséquences
La traduction préservant la voix est une fonctionnalité puissante lorsqu'elle est déployée dans le cadre d'une conception rigoureuse du consentement et de règles de conservation claires. Elle devient intrusive lorsqu'elle est déployée sans ces conditions. Le problème des entreprises ne réside pas dans la technique, mais dans les politiques de confidentialité. Le plan d'Owaa, tel qu'il est formulé par écrit, est de se concentrer d'abord sur les politiques, puis sur le modèle.