Pourquoi la traduction vocale en temps réel lors d'un appel téléphonique est si difficile
Si vous avez déjà utilisé une application de traduction qui vous oblige à appuyer sur un bouton, attendre, puis en appuyer sur un autre, vous connaissez le fossé entre la *traduction* et la *traduction en temps réel*. La première est un outil. La seconde est une conversation. Combler cet écart lors d'un appel téléphonique classique est plus difficile qu'il n'y paraît, car le réseau téléphonique n'a jamais été conçu pour cela.
Cet article explique aux utilisateurs pourquoi c'est si complexe, sans entrer dans les détails des choix d'implémentation.
Que signifie réellement « temps réel » ?
Le temps réel signifie que la conversation se déroule au rythme d'une conversation humaine. Concrètement, cela représente environ une demi-seconde de délai entre le moment où une personne a fini de parler et celui où l'autre commence à entendre la traduction. Au-delà, l'appel ressemble à une conversation par talkie-walkie. Un délai inférieur à 500 ms est rare, même pour les humains.
Pour atteindre cet objectif, une série d'opérations doit s'exécuter rapidement :
1. Le système doit savoir quand une phrase se termine. Cela paraît anodin, mais ça ne l'est pas. Les téléphones captent la respiration, les bruits ambiants et autres sons parasites qui peuvent être confondus avec de la parole par un système de reconnaissance vocale peu performant.
2. Le système doit comprendre ce qui a été dit. La reconnaissance vocale est bien meilleure qu'il y a dix ans, mais les accents, les dialectes régionaux et les mauvaises conditions de connexion continuent de perturber les modèles.
3. Le système doit traduire avec précision. La traduction mot à mot produit souvent des résultats incohérents entre les langues dont l'ordre des mots diffère. La traduction au niveau de la phrase est plus précise, mais plus lente.
4. Le système doit prononcer le résultat d'une voix naturelle, sans donner l'impression d'être un robot lisant les informations.
Chacune de ces quatre étapes consomme une partie du temps de latence disponible. Le système dispose d'environ une demi-seconde pour effectuer ces quatre étapes de bout en bout.
Pourquoi un appel téléphonique est plus complexe qu'un appel vidéo
Les applications permettant les appels vidéo entre deux navigateurs disposent de plusieurs outils absents des appels téléphoniques :
- Qualité audio supérieure. Le son des navigateurs offre une qualité studio. Les appels téléphoniques, quant à eux, utilisent la qualité audio inférieure pour laquelle le réseau a été conçu dans les années 1980 : gamme de fréquences plus étroite, artefacts de compression plus importants. La reconnaissance vocale est plus performante avec le son du navigateur qu'avec celui du téléphone.
- Traitement côté client. Les applications de navigateur peuvent prétraiter l'audio sur l'appareil de l'utilisateur : annulation d'écho, réduction du bruit, détection des limites de phrases. Les téléphones ne proposent aucune de ces fonctionnalités à l'interlocuteur.
- Chemin réseau contrôlé. Les navigateurs négocient le chemin entre les deux terminaux. Les appels téléphoniques empruntent le chemin choisi par l'opérateur.
- Un second écran de secours. Les appels vidéo peuvent afficher des sous-titres, un sélecteur de langue et des boutons de mise en sourdine. Les appels téléphoniques ne diffusent que l'audio.
La plus grande contrainte du réseau téléphonique est aussi son plus grand atout : le destinataire n'a pas besoin d'application. C'est précisément pour cette raison que les appels traduits sont si utiles pour joindre les grands-parents, les fournisseurs, les agents d'assistance téléphonique et toute personne qui ne souhaite pas installer d'application. Derrière la complexité technique se cache un produit simple : répondre au téléphone comme d'habitude.
Où se cache la latence
Un appel traduit en temps réel prend environ le temps suivant par sens :
- Détection de la fin de phrase : ~500 ms (délai optimisé ; trop court interrompt la communication, trop long provoque un décalage)
- Reconnaissance du discours : ~100 ms après la fin de la phrase
- Traduction vers la langue cible : ~100 ms
- Synthèse de la voix traduite : ~150 ms
- Surcharge réseau et d'orchestration : ~100 ms
Total : environ 600 ms en moyenne, pouvant atteindre 1 seconde en cas de bruit ambiant. C'est pourquoi les appels traduits en temps réel donnent l'impression d'un léger décalage par rapport à un appel par satellite.
Ce qu'est une bonne traduction
Quelques signes que le système fonctionne :
- Les deux interlocuteurs parlent naturellement. Aucun tutoriel « parlez lentement » n'est nécessaire. Pas de pauses entre chaque mot.
- Chaque locuteur conserve sa propre voix. Une traduction qui sonne comme un robot lisant des sous-titres donne l'impression d'un appel à l'étranger. Une traduction qui respecte le ton de la voix donne l'impression d'une véritable conversation.
- Vous pouvez interrompre. Les conversations réelles comportent des chevauchements. Le système gère cela sans coupure audio.
- L'alternance codique fonctionne. Les personnes bilingues mélangent souvent les deux langues. Le système suit le mouvement.
Les limites de la traduction
La traduction automatique en temps réel par IA n'est pas magique. Certains éléments dégradent encore la qualité :
- Dialogues régionaux marqués. La langue standard des principales langues est bien traduite. Les dialectes locaux marqués posent toujours problème au système.
- Plusieurs locuteurs simultanés. Le système part du principe qu'une seule voix est traduite à la fois. Un environnement bruyant peut compromettre ce principe. - Parole chuchotée ou criée. Les modèles de reconnaissance sont optimisés pour un volume sonore normal. Les variations de volume importantes nuisent à la précision.
- Jargon très technique. Un appel informel fonctionne parfaitement. En revanche, un appel concernant des interventions chirurgicales cardiothoraciques ou l'ingénierie aérospatiale peut nécessiter l'intervention d'un interprète humain spécialisé.
En résumé : la traduction automatique par IA en temps réel gère avec brio la plupart des conversations courantes. Les deux extrêmes – les conversations informelles et les appels portant sur des sujets sensibles – requièrent parfois l'intervention d'un humain.