Spracherhaltende Übersetzung: Möglichkeiten, Einwilligung und die Ethik des Klonens
Wenn wir Owaa als „Echtzeitübersetzung von Anrufen in Ihrer eigenen Stimme“ beschreiben, stellen sich berechtigte Fragen:
1. *Wie* wird die Stimme des Sprechers sprachübergreifend erhalten?
2. Sollte das überhaupt erlaubt sein?
Beide Fragen verdienen klare Antworten. Dieser Beitrag liefert sie.
Drei Dinge, die oft als „Stimmerhaltung“ bezeichnet werden
Der Begriff wird oft ungenau verwendet. Es gibt drei grundverschiedene Dinge:
1. Stimmabgleich (katalogbasiert)
Das System wählt die am besten passende Stimme aus einem Katalog hochwertiger, natürlich klingender Stimmen aus. Der Katalog enthält Dutzende von Stimmen, die sich in Geschlecht, Register, sprachlichem Hintergrund und emotionaler Tonlage unterscheiden. Das System hört dem Sprecher einige Sekunden lang zu, klassifiziert ihn (Geschlecht, ungefähres Register, Altersgruppe) und wählt die am besten passende Katalogstimme aus. Die Ausgabe bleibt sprachübergreifend konsistent, da während des gesamten Gesprächs für beide Seiten dieselbe Katalogstimme verwendet wird.
Datenschutz: Keine. Es werden keine biometrischen Daten erfasst. Die Stimme, die der Zuhörer hört, ist eine Standardressource.
2. Stimmklonierung (modellbasiert)
Es wird ein nutzerspezifisches Sprachmodell anhand einer aufgezeichneten Sprachprobe (typischerweise 30–60 Sekunden klare Sprache) trainiert. Das Modell kann dann die Stimme *dieser spezifischen Person* in jeder unterstützten Sprache synthetisieren. Dies ist das, was sich die meisten Menschen vorstellen, wenn sie „Ihre Stimme in verschiedenen Sprachen“ hören.
Datenschutz: Erheblich. Die Sprachprobe ist ein biometrisches Merkmal. Speicherung, Aufbewahrung, Löschung und Zugriffskontrollen haben rechtliche Bedeutung, insbesondere gemäß DSGVO, CCPA und BIPA (Illinois).
3. Biometrische Erfassung (kontinuierlich)
Die Stimme wird während regulärer Anrufe im Hintergrund aufgezeichnet, um ein Profil im Laufe der Zeit zu verfeinern. Nutzer bemerken dies möglicherweise nicht.
Datenschutz: Schwerwiegend. Ohne ausdrückliche, detaillierte und kontinuierliche Einwilligung ist dies in der Regel verboten.
Aktueller Stand von Owaa
Phase 1 (aktuell) bietet Option 1: katalogbasiertes Stimmabgleich. Es werden keine biometrischen Daten erfasst. Der Sprecher hört die Stimme der anderen Person in einer hochwertigen TTS-Stimme, die deren allgemeiner Klangfarbe entspricht. Es handelt sich jedoch um eine Standardstimme.
Phase 2 – geplant – bietet Option 2 mit ausdrücklicher Einwilligung und einer Aufbewahrungsfrist von 12 Monaten. Der Sprecher nimmt mit ausdrücklicher Einwilligung eine kurze Sprachprobe auf. Das Modell wird trainiert, und fortan klingt die übersetzte Stimme in verschiedenen Sprachen wie *die Person selbst*. Nutzer können die Einwilligung jederzeit widerrufen und das Modell löschen. Die Aufbewahrungsfrist von 12 Monaten gilt auch ohne ausdrücklichen Widerruf.
Option 3 wird nicht veröffentlicht.
Warum die Gestaltung der Einwilligung wichtiger ist als das Modell
Die technische Möglichkeit, eine Stimme zu klonen, ist mittlerweile weit verbreitet – Open-Source-Modelle können aus 30 Sekunden Audiomaterial eine plausible Kopie erstellen. Die Herausforderung liegt nicht im Modell selbst, sondern darin, sicherzustellen:
- dass der Nutzer über den Vorgang informiert ist.
- - Der Nutzer kann ablehnen, ohne den Rest des Produkts zu verlieren.
Die Daten sind portabel und löschbar.
Die Nutzung ist begrenzt (nur übersetzte Anrufe, keine allgemeine Identitätsfälschung).
Die Speicherdauer ist auf 12 Monate begrenzt.
Die Einwilligung kann jederzeit widerrufen werden.
Wenn auch nur einer dieser Punkte nicht stimmt, haben Sie ein Überwachungsprodukt im Gewand eines Übersetzungsprodukts auf den Markt gebracht. Das Modell ist der einfache Teil.
Was das in der Praxis für Nutzer bedeutet
Wenn Sie heute unsere Hotline anrufen (Phase 1), wird Ihre Stimme weder aufgezeichnet noch geklont. Sie hören eine übersetzte Stimme aus einem Standardkatalog, die Ihrer Stimme einigermaßen ähnelt. Das ist alles.
Mit dem Start von Phase 2 werden Sie – explizit und in verständlicher Sprache, bevor eine Aufzeichnung erfolgt – gefragt, ob Sie die Stimmklonierung aktivieren möchten. Wenn nicht, bleibt die Erfahrung aus Phase 1 erhalten. Wenn Sie sie aktivieren, ist die Funktion *nur für Ihr Konto* mit den oben genannten Einstellungen verfügbar.
Wir werden den vollständigen Einwilligungsprozess und die Aufbewahrungsrichtlinie vor dem Start von Phase 2 auf der Compliance-Seite veröffentlichen.
Was ist mit der anderen Seite des Gesprächs?
Wichtige Asymmetrie: Der Angerufene hört bei jedem übersetzten Anruf die KI-generierte Stimme des Anrufers. Er hört nicht die Originalstimme des Anrufers in seiner Muttersprache. Für den Angerufenen ändert sich also nichts – er erhält wie gewohnt einen Anruf.
Es stellt sich jedoch die Frage, ob der Angerufene darüber informiert werden sollte, dass der Anruf KI-vermittelt ist. Verschiedene Rechtsordnungen haben unterschiedliche Regelungen:
- Der TCPA (USA) schreibt derzeit keine Offenlegung für KI-vermittelte Übersetzungen vor, wohl aber für ausgehende automatische Wählverfahren.
- Der EU-KI-Gesetzentwurf stuft Übersetzungssysteme (Stand: [Datum einfügen]) als „geringes Risiko“ ein und empfiehlt, die Nutzer zu informieren, anstatt ihre Einwilligung einzuholen.
- Einige Mobilfunkanbieter** verlangen einen hörbaren Ton oder eine Ansage für jede KI-verarbeitete Stimme bei ausgehenden Anrufen.
Unser Standardverhalten ist es, im Zweifelsfall die Übersetzung offenzulegen. Der Angerufene hört bei ausgehenden Anrufen über den Agenten eine kurze Ansage: „Übersetzung aktiviert“. Bei eingehenden Anrufen über die Hotline ist keine Offenlegung erforderlich, da der Anrufer sich für die Nutzung des Systems entschieden hat.
Die Zukunft
Spracherhaltende Übersetzung ist eine leistungsstarke Funktion, wenn sie mit einem strengen Einwilligungsmodell und klaren Aufbewahrungsregeln implementiert wird. Ohne diese wirkt sie befremdlich. Das Problem vieler Unternehmen liegt nicht in der technischen Umsetzung, sondern in der Ausgestaltung der Richtlinien. Owaa plant daher, zunächst die Richtlinien und anschließend das Modell zu entwickeln.