← all posts·2026-04-28·7 min

Warum Echtzeit-Sprachübersetzung in Telefongesprächen so schwierig ist

Wer schon einmal eine Übersetzungs-App benutzt hat, bei der man erst einen Knopf drücken, dann warten und dann noch einen drücken muss, kennt den Unterschied zwischen *Übersetzung* und *Echtzeitübersetzung*. Erstere ist ein Werkzeug. Letztere ist ein Gespräch. Diese Lücke in einem normalen Telefongespräch zu schließen, ist schwieriger als gedacht, denn das Telefonnetz ist dafür nicht ausgelegt.

Dieser Beitrag erklärt aus Nutzersicht, warum es so schwierig ist – ohne auf konkrete Implementierungsentscheidungen einzugehen.

Was „Echtzeit“ wirklich bedeutet

Echtzeit bedeutet, dass das Gespräch in menschlichem Tempo verläuft. Praktisch bedeutet das eine Verzögerung von etwa einer halben Sekunde zwischen dem Ende des Gesprächs und dem Beginn der Übersetzung. Alles darüber hinaus fühlt sich an wie ein Walkie-Talkie. Alles unter 500 ms ist selbst für Menschen selten.

Um dieses Ziel zu erreichen, müssen mehrere Schritte schnell ablaufen:

1. Das System muss das Satzende erkennen. Das klingt trivial, ist es aber nicht. Telefone übertragen Atemgeräusche, Umgebungsgeräusche und Nebengeräusche, die von einem ungeübten Detektor als Sprache wahrgenommen werden.

2. Das System muss das Gesagte verstehen. Die Spracherkennung ist zwar deutlich besser als vor zehn Jahren, aber Akzente, regionale Dialekte und schlechte Verbindungsbedingungen stellen die Modelle immer noch vor Herausforderungen.

3. Das System muss genau übersetzen. Wort-für-Wort-Übersetzungen führen in Sprachen mit unterschiedlicher Wortstellung oft zu unverständlichen Ergebnissen. Übersetzungen auf Satzebene sind genauer, aber langsamer.

4. Das System muss das Ergebnis in einer natürlichen Stimme wiedergeben, die nicht wie eine roboterhafte Nachrichtensendung klingt.

Jeder dieser vier Schritte beansprucht etwas Zeit. Das System hat etwa eine halbe Sekunde Zeit, um alle vier Schritte abzuschließen.

Warum ein Telefonanruf schwieriger ist als ein Videoanruf

Apps für Videoanrufe zwischen zwei Browsern bieten einige Funktionen, die bei Telefonanrufen nicht verfügbar sind:

Höhere Audioqualität: Browser-Audio bietet Studioqualität. Telefonanrufe hingegen nutzen die niedrigere Audioqualität, für die das Netzwerk in den 1980er-Jahren entwickelt wurde – engerer Frequenzbereich, mehr Kompressionsartefakte. Die Spracherkennung hat bei Browser-Audio mehr Möglichkeiten als bei Telefon-Audio.

Clientseitige Verarbeitung: Browser-Apps können Audio auf dem Gerät des Nutzers vorverarbeiten – Echounterdrückung, Rauschunterdrückung, Satzgrenzenerkennung. Telefone bieten diese Funktionen nicht.

Kontrollierter Netzwerkpfad: Browser verhandeln die Route zwischen den beiden Endgeräten. Telefonanrufe laufen über den vom Netzwerk gewählten Pfad.

Zweitbildschirm als Ausweichmöglichkeit: Videoanrufe können Untertitel, Sprachauswahl und Stummschalttasten anzeigen. Telefonanrufe bieten nur Audio.

Die größte Einschränkung des Telefonnetzes ist gleichzeitig sein größter Vorteil: Der Empfänger benötigt keine App. Genau deshalb sind übersetzte Anrufe so nützlich, um Großeltern, Lieferanten, Hotline-Mitarbeiter und alle anderen zu erreichen, die keine App installieren möchten. Die technische Komplexität hinter der einfachen Bedienung zu verbergen, ist das eigentliche Produkt.

Wo die Latenz versteckt ist

Ein reibungsloser, in Echtzeit übersetzter Anruf benötigt pro Richtung etwa folgende Zeit:

Satzende erkennen: ~500 ms (optimiert – zu kurz unterbricht die Verbindung, zu lang führt zu Verzögerungen)
Gesagtes erkennen: ~100 ms nach Satzende
Übersetzung in die Zielsprache: ~100 ms

Sprachsynthese: ~150 ms
Netzwerk- und Orchestrierungsaufwand: ~100 ms

Gesamt: Median etwa 600 ms, gelegentlich bis zu 1 Sekunde bei störungsanfälligen Anrufen. Deshalb fühlen sich Echtzeit-Übersetzungen wie ein leicht verzögertes Satellitengespräch an.

So fühlt sich eine gute Übersetzung an

Einige Anzeichen dafür, dass das System funktioniert:

Beide Seiten sprechen natürlich. Keine Anleitung zum langsamen Sprechen nötig. Keine Pausen zwischen den Wörtern.

Jeder Sprecher behält seine eigene Stimme. Eine Übersetzung, die klingt, als würde ein Roboter Untertitel vorlesen, fühlt sich wie ein Anruf aus dem Ausland an. Eine Übersetzung, die dem Tonfall des Sprechers entspricht, fühlt sich wie ein echtes Gespräch an.

Sie können unterbrechen. In echten Gesprächen überschneiden sich die Stimmen. Das System bewältigt das, ohne die Audioübertragung zu unterbrechen.

Sprachwechsel funktioniert. Zweisprachige Menschen mischen ihre Sprachen oft. Das System passt sich an.

Wo die Übersetzung Schwächen aufweist

KI-Übersetzungen in Echtzeit sind keine Zauberei. Einige Faktoren beeinträchtigen die Qualität:

Starke regionale Dialekte. Standardsprache der Hauptsprachen wird gut übersetzt. Starke lokale Dialekte bereiten dem System weiterhin Probleme.

Mehrere Sprecher gleichzeitig. Das System geht von einer einzelnen Stimme gleichzeitig aus. In lauten Umgebungen funktioniert es nicht.

Geflüster oder Geschrei: Die Erkennungsmodelle sind auf normale Lautstärke optimiert. Lautstärkeschwankungen beeinträchtigen die Genauigkeit.

Hochtechnisches Fachjargon: Ein lockeres Gespräch funktioniert problemlos. Bei einem Gespräch über herzchirurgische Eingriffe oder Luft- und Raumfahrttechnik ist möglicherweise ein spezialisierter Dolmetscher erforderlich.

Die richtige Formulierung lautet: KI-Übersetzungen in Echtzeit bewältigen den Großteil von Gesprächen hervorragend. Für die beiden anderen Enden – reine Smalltalk-Gespräche und Gespräche über wichtige Themen – ist manchmal ein menschlicher Dolmetscher notwendig.

Weiterlesen

Start free Pricing