← all posts··8 min

音声保存翻訳:能力、同意、そしてクローン化の倫理

Owaaを「自分の声でリアルタイムに翻訳される通話」と説明すると、常識的な人は次の2つの疑問を抱きます。

1. 言語を超えて話者の声を*どのように*保存するのか?

2. そもそも、そのようなことは許されるべきなのか?

どちらの疑問にも明確な答えが必要です。この記事では、その答えを示します。

「音声保存」と呼ばれる3つの概念

この言葉は曖昧に使われがちです。実際には、3つの異なる概念が存在します。

1. 音声マッチング(カタログベース)

このシステムは、高品質で自然な音声のストックカタログから、最も適した音声を選択します。カタログには、性別、レジスター、言語背景、感情表現など、さまざまな特徴を持つ数十種類の音声が収録されています。システムは話者の音声を数秒間聞き、性別、おおよそのレジスター、年齢層などを分類し、カタログの中から最も近い音声を選択します。通話全体を通して、各言語で同じカタログ音声が使用されるため、出力は言語を問わず一貫しています。

プライバシーへの影響: ゼロ。生体認証データは取得されません。リスナーが聞く「声」はストック音声です。

2. 音声クローニング(モデルベース)

録音されたサンプル(通常30~60秒の明瞭な音声)から、ユーザーごとの音声モデルを学習させます。このモデルは、サポートされているあらゆる言語で、*その特定の人物*の声を合成できます。多くの人が「あなたの声が様々な言語で聞こえる」と想像するのは、まさにこのことです。

プライバシーへの影響: 相当量。音声サンプルは生体認証情報です。保存、保持、削除、アクセス制御はすべて法的拘束力を持ち、特にGDPR、CCPA、BIPA(イリノイ州)などの法律の対象となります。

3. 生体認証情報の取得(継続的)

通常の通話中に音声をバックグラウンドで録音し、時間をかけてプロファイルを洗練させていきます。ユーザーはこれが行われていることに気づかない場合があります。

プライバシーへの影響: 深刻。明示的かつ詳細な継続的な同意がない限り、一般的には禁止されています。

Owaaの現状

フェーズ1(現在)では、オプション1(カタログベースの音声マッチング)を提供しています。生体認証データは取得されません。話者は、相手の声が、その人の一般的な声質に一致する高品質な音声合成(TTS)で再現された音声を聞くことができますが、これは既製の音声です。

フェーズ2(計画中)では、オプション2を追加し、明示的なオプトイン同意と12ヶ月間のデータ保持ポリシーを適用します。話者は明示的な同意のもとで短いサンプル音声を録音し、モデルが学習されます。その後、翻訳された音声は、あらゆる言語において*本人*の声のように聞こえるようになります。ユーザーはいつでもモデルの同意を取り消し、削除できます。明示的な同意がなくても、12ヶ月の有効期限が適用されます。

オプション3は提供いたしません。

同意設計がモデルよりも重要な理由

音声クローンを作成する技術は現在広く普及しており、オープンソースのモデルを使えば30秒の音声からそれらしいクローンを作成できます。難しいのはモデルそのものではなく、以下の点を確実にすることです。

  • ユーザーが処理が行われていることを認識していること。
  • ユーザーが製品の他の機能を損なうことなく拒否できること。
  • データがポータブルで削除可能であること。
  • 利用範囲が限定されていること(翻訳通話のみで、一般的ななりすましは含まれない)。
  • 保存期間が限定されていること(12ヶ月)。
  • 同意はいつでも撤回できること。

これらのいずれかが欠けていると、翻訳製品のふりをした監視製品を出荷することになります。モデルは比較的簡単な部分です。

ユーザーにとっての実際の意味

現在(フェーズ1)当社のホットラインにお電話いただいた場合、お客様の音声が録音またはクローンされることはありません。お客様の声質に合うように調整された、カタログ音声に翻訳音声を重ねて再生されます。以上です。

フェーズ2がリリースされると、録音が行われる前に、音声クローン機能を有効にするかどうかを、分かりやすい言葉で明確に尋ねられます。有効にしない場合は、フェーズ1のエクスペリエンスが維持されます。有効にする場合は、上記のコントロール設定で、*お客様のアカウントのみ*でこの機能が有効になります。

フェーズ2のリリース前に、コンプライアンスページに、同意フローとデータ保持ポリシーの全文を掲載します。

通話の相手側はどうなるのでしょうか?

重要な非対称性:翻訳された通話の着信者は、発信者のAIによって生成された音声を聞きます。発信者の生の声を母国語で聞くことはありません。つまり、着信者は何も新しいことを経験するわけではなく、通常通り電話を受けているだけです。

ただし、通話がAIによって行われていることを着信者に伝えるべきかどうかという問題があります。管轄区域によって規則が異なります。

  • TCPA(米国)は、AIによる翻訳については現時点では開示を義務付けていませんが、発信自動ダイヤルについては義務付けています。
  • EU AI Act(執筆時点)は、翻訳システムを「限定的リスク」と分類し、同意ではなくユーザーの認識を推奨しています。
  • 一部の通信事業者は、発信通話でAIによる音声変換が行われる場合、音声による通知またはアナウンスを義務付けています。

当社では、判断に迷う場合は、デフォルトで開示を行っています。オペレーター経由で発信された通話では、受信者に「翻訳が有効になっています」という短いアナウンスが流れます。ホットライン(着信)の場合は、着信者がシステムへの登録を選択しているため、開示は不要です。

今後の展望

音声保存型翻訳は、厳格な同意設計と明確なデータ保持ルールに基づいて提供される場合、非常に強力な機能となります。しかし、これらが満たされない場合、不気味な機能となってしまいます。企業が失敗するのは技術的な問題ではなく、ポリシー策定の問題です。 Owaaの計画は、文書上では、まずポリシー策定を行い、次にモデル開発を行うというものです。

詳細はこちら

音声保存翻訳:能力、同意、そしてクローン作成の倫理 · Owaa