Por qué la traducción de voz en tiempo real en una llamada telefónica es tan difícil
Si alguna vez has usado una aplicación de traducción que te obliga a pulsar un botón, esperar y luego pulsar otro, conoces la enorme diferencia entre *traducción* y *traducción en tiempo real*. La primera es una herramienta. La segunda es una conversación. Reducir esa brecha en una llamada telefónica común es más difícil de lo que parece, porque la red telefónica nunca se diseñó para ello.
Esta publicación explica, desde la perspectiva del usuario, por qué es difícil, sin entrar en detalles sobre las opciones de implementación específicas.
Qué significa realmente "tiempo real"
Tiempo real significa que la conversación fluye al ritmo de una conversación humana. En la práctica, esto supone un retraso de aproximadamente medio segundo entre el momento en que una persona termina de hablar y el momento en que la otra empieza a escuchar la traducción. Si el retraso es mayor, la llamada empieza a sonar como un walkie-talkie. Un retraso inferior a 500 ms es raro, incluso para los humanos.
Para alcanzar ese objetivo, se requiere una cadena de operaciones que deben ejecutarse rápidamente:
1. El sistema necesita saber cuándo termina una oración. Esto parece trivial, pero no lo es. Los teléfonos transmiten la respiración, el ruido ambiental y sonidos incidentales que un detector inexperto interpreta como habla.
2. El sistema necesita comprender qué se dijo. El reconocimiento de voz ha mejorado mucho en comparación con hace diez años, pero los acentos, los dialectos regionales y las malas condiciones de la línea aún dificultan la comprensión de los modelos.
3. El sistema necesita traducir con precisión. La traducción palabra por palabra suele generar incoherencias en idiomas con diferentes órdenes de palabras. La traducción a nivel de oración es más precisa, pero más lenta.
4. El sistema necesita reproducir el resultado con una voz que no suene como un robot leyendo las noticias.
Cada una de estas cuatro etapas consume parte del tiempo de latencia. El sistema dispone de aproximadamente medio segundo para completar las cuatro etapas de principio a fin.
¿Por qué una llamada telefónica es más difícil que una videollamada?
Las aplicaciones para videollamadas entre navegadores ofrecen varias herramientas que una llamada telefónica no tiene:
- Mayor calidad de audio. El audio del navegador ofrece una calidad de estudio. Las llamadas telefónicas se ejecutan con la menor fidelidad de audio con la que se diseñó la red en la década de 1980: un rango de frecuencia más estrecho y más artefactos de compresión. El reconocimiento de voz tiene más información que procesar con el audio del navegador que con el del teléfono.
- Procesamiento del lado del cliente. Las aplicaciones de navegador pueden preprocesar el audio en el dispositivo del usuario: cancelación de eco, supresión de ruido, detección de límites de frases. Los teléfonos no ofrecen ninguna de estas funciones a quien realiza la llamada.
- Una ruta de red controlada. Los navegadores negocian la ruta entre los dos extremos. Las llamadas telefónicas utilizan la ruta que la red elija.
- Una segunda pantalla de respaldo. Las videollamadas pueden mostrar subtítulos, selector de idioma y botones para silenciar el micrófono. Las llamadas telefónicas solo tienen audio.
La mayor limitación de la red telefónica es, a la vez, su mayor ventaja: el destinatario no necesita una aplicación. Esa es la razón principal por la que las llamadas traducidas son útiles para comunicarse con abuelos, proveedores, personal de atención al cliente y cualquier otra persona que no vaya a instalar nada. El producto se basa en ocultar la complejidad técnica tras la simple frase "contestar el teléfono como siempre".
Dónde se esconde la latencia
Una llamada traducida en tiempo real de buena calidad consume aproximadamente este tiempo por trayecto:
- Detección del final de la frase: ~500 ms (ajuste preciso: si es demasiado corto, se corta la llamada; si es demasiado largo, se retrasa).
- Reconocimiento de lo dicho: ~100 ms después de finalizar la frase.
- Traducción al idioma de destino: ~100 ms.
- Síntesis de la voz traducida: ~150 ms.
- Sobrecarga de red y orquestación: ~100 ms.
Total: aproximadamente 600 ms de media, ocasionalmente hasta 1 segundo en llamadas con mucho ruido. Por eso, las llamadas traducidas en tiempo real se sienten como una llamada satelital con un ligero retraso.
Cómo se siente una buena traducción
Algunas señales de que el sistema funciona:
- Ambos interlocutores hablan con naturalidad. No se necesita ningún tutorial para hablar despacio. No hay pausas entre cada palabra.
- Cada interlocutor mantiene su propia voz. Una traducción que suena como un robot leyendo subtítulos se siente como una llamada en otro idioma. Una traducción que coincide con el tono del interlocutor se siente como una conversación real.
- Se pueden interrumpir. Las conversaciones reales tienen superposiciones. El sistema lo gestiona sin perder el audio.
- Funciona el cambio de código. Las personas que hablan dos idiomas a menudo los mezclan. El sistema los sigue.
Dónde falla la traducción
La traducción automática por IA en tiempo real no es magia. Algunos factores aún degradan la calidad:
- Dialectos regionales marcados. El habla estándar de los idiomas principales se traduce bien. Los dialectos locales marcados aún presentan problemas para el sistema.
- Varios interlocutores simultáneos. El diseño parte de la premisa de que solo se puede procesar una voz a la vez. Una habitación ruidosa dificulta su uso.
- Habla susurrada o gritada. Los modelos de reconocimiento están optimizados para un volumen normal. Los volúmenes atípicos afectan la precisión.
- Jerga altamente técnica. Una llamada informal funciona bien. Una llamada sobre procedimientos de cirugía cardiotorácica o ingeniería aeroespacial puede requerir un intérprete humano especializado.
En resumen: la traducción automática por IA en tiempo real maneja con brillantez la parte media de las conversaciones. Los extremos —conversaciones informales y llamadas sobre temas complejos— a veces requieren la intervención humana.