電話におけるリアルタイム音声翻訳がなぜ難しいのか
ボタンを押して、待って、またボタンを押す、といった手順を踏む翻訳アプリを使ったことがある方なら、*翻訳*と*リアルタイム翻訳*の大きな違いをご存知でしょう。前者はツールであり、後者は会話です。通常の電話でこのギャップを埋めるのは、想像以上に難しいのです。なぜなら、電話ネットワークはそもそもリアルタイム翻訳を想定して設計されていないからです。
この記事では、具体的な実装方法には触れずに、なぜリアルタイム翻訳が難しいのかをユーザー目線で解説します。
「リアルタイム」とはどういう意味か
リアルタイムとは、会話が人間の会話と同じペースで進むことを意味します。実際には、片方が話し終えてからもう片方が翻訳を聞き始めるまでの遅延は約0.5秒程度です。これより遅延が大きいと、まるでトランシーバーで話しているような感覚になります。500ミリ秒未満の遅延は、人間でも稀です。
目標を達成するには、一連の処理を迅速に実行する必要があります。
1. システムは文の終わりを認識する必要があります。これは一見簡単そうに聞こえますが、実際はそうではありません。スマートフォンには、呼吸音、室内の雑音、その他の付随的な音が混入しており、単純な音声検出器では音声と誤認識されてしまうことがあります。
2. システムは話された内容を理解する必要があります。音声認識技術は10年前と比べて格段に向上していますが、アクセント、方言、回線状態などによって、依然として認識モデルが混乱することがあります。
3. システムは**正確に翻訳する必要があります。単語単位の翻訳では、語順が異なる言語間で意味不明な音声が生成されることがしばしばあります。文単位の翻訳は精度が高いものの、処理速度は遅くなります。
4. システムは**結果をロボットがニュースを読み上げるような不自然な声ではなく、自然な音声で読み上げる必要があります。
これら4つの段階それぞれが、処理時間(レイテンシ)を消費します。システムには、これら4つの処理すべてをエンドツーエンドで約0.5秒以内に完了させる必要があります。
電話通話がビデオ通話より難しい理由
ブラウザ間でビデオ通話を行うアプリには、電話通話にはないいくつかの機能があります。
- 高音質 ブラウザの音声はスタジオ品質です。電話通話は、1980年代にネットワークが設計された際の低忠実度オーディオ仕様で行われます。つまり、周波数帯域が狭く、圧縮によるノイズが多くなります。音声認識は、電話音声よりもブラウザ音声の方が処理しやすいのです。
- クライアント側処理 ブラウザアプリは、ユーザーのデバイス上で音声を前処理できます。エコーキャンセレーション、ノイズ抑制、文境界検出などです。電話は、通話のホスト側にこれらの機能を提供しません。
- 制御されたネットワークパス ブラウザは2つのエンドポイント間の経路をネゴシエートします。電話通話は、ネットワークが選択したキャリアパスを経由します。
- フォールバック用のセカンドスクリーン ビデオ通話では、字幕、言語選択、ミュートボタンを表示できます。電話通話では音声のみです。
電話ネットワークの最大の制約は、同時に最大の利点でもあります。それは、受信者がアプリをインストールする必要がないということです。祖父母、取引先、ホットラインの担当者など、アプリをインストールしたくない相手に電話を通す際に、翻訳電話が役立つのはまさにこの点です。「普通に電話に出る」というシンプルな操作性で、技術的な難しさを隠しているのが、このサービスです。
遅延が発生する場所
リアルタイム翻訳通話は、片方向あたりおよそ以下の時間を要します。
- 文末の検出:約500ミリ秒(意図的に調整されています。短すぎると通話が途切れ、長すぎると通話が遅延します)
- 発言内容の認識:文末から約100ミリ秒
- 対象言語への翻訳:約100ミリ秒
- 翻訳音声の合成:約150ミリ秒
- ネットワークおよびオーケストレーションのオーバーヘッド:約100ミリ秒
合計:平均約600ミリ秒、ノイズの多い通話では最大1秒になる場合もあります。そのため、リアルタイム翻訳通話は、少し遅延のある衛星電話のように感じられるのです。
優れた翻訳とは
システムが正常に機能している兆候をいくつかご紹介します。
- 両者とも自然に話す。「ゆっくり話す」といったチュートリアルは不要です。単語ごとに間を置くこともありません。
- それぞれの話者の声がそのまま聞こえる。 ロボットが字幕を読み上げているような翻訳は、外国語の通話のように感じられます。話者の声のトーンに合った翻訳は、まるで本物の会話のように感じられます。
- 会話を中断できる。 実際の会話では、話が重なることがあります。システムは音声が途切れることなく、それを処理します。
- コードスイッチングが機能する。 2つの言語を話す人は、しばしば言語を混ぜて話します。システムはそれに合わせて対応します。
翻訳がうまくいかない場合
リアルタイムAI翻訳は魔法ではありません。いくつかの要因によって翻訳品質が低下することがあります。
- 強い方言。 主要言語の標準語はうまく翻訳されますが、強い方言はシステムにとって依然として問題となります。
- 複数の同時発話者 設計上の前提は、一度に一人の音声のみを想定することです。騒がしい部屋ではこの前提は機能しません。
- ささやき声や叫び声 認識モデルは通常の音量に合わせて調整されています。音量が極端に異なると精度が低下します。
- 高度な専門用語 日常会話であれば問題ありません。しかし、心臓胸部外科手術や航空宇宙工学に関する会話では、専門分野の知識を持つ人間の通訳者が必要になる場合があります。
適切な表現としては、リアルタイムAI翻訳は、会話の中間レベルを非常にうまく処理します。しかし、その両極端、つまり雑談だけの会話と、重要な専門分野の会話では、人間の通訳が必要になる場合があります。