← all posts··8 min

음성 보존 번역: 기능, 동의, 그리고 음성 복제의 윤리

Owaa를 "실시간으로 본인의 목소리로 통역되는 통화"라고 설명할 때, 사람들은 다음과 같은 두 가지 질문을 던집니다.

1. 언어에 관계없이 화자의 목소리를 *어떻게* 보존하나요?

2. 이러한 방식이 허용되어야 할까요?

두 질문 모두 명확한 답변이 필요합니다. 이 글에서 그 답을 제시합니다.

흔히 "음성 보존"이라고 불리는 세 가지 방식

이 용어는 다소 모호하게 사용됩니다. 실제로는 세 가지 다른 방식이 있습니다.

1. 음성 매칭(카탈로그 기반)

시스템은 고품질의 자연스러운 음성으로 구성된 카탈로그에서 가장 적합한 음성을 선택합니다. 이 카탈로그에는 성별, 어조, 언어 배경, 감정적 톤이 다양한 수십 가지 음성이 포함되어 있습니다. 시스템은 화자의 목소리를 몇 초 동안 듣고 (성별, 대략적인 어조, 연령대)를 분류한 후, 가장 유사한 카탈로그 음성을 선택합니다. 통화 내내 양쪽에서 동일한 카탈로그 음성이 사용되므로 언어에 관계없이 일관된 결과물을 얻을 수 있습니다.

개인정보 침해: 전혀 없음. 생체 데이터는 수집되지 않습니다. 듣는 사람이 듣는 "목소리"는 주식 자산입니다.

2. 음성 복제(모델 기반)

녹음된 샘플(일반적으로 30~60초 분량의 명확한 음성)을 사용하여 사용자별 음성 모델을 학습시킵니다. 이 모델은 지원되는 모든 언어로 *특정 개인*의 목소리를 합성할 수 있습니다. 대부분의 사람들이 "여러 언어로 된 당신의 목소리"를 들을 때 떠올리는 것이 바로 이것입니다.

개인정보 침해: 중요함. 음성 샘플은 생체 정보입니다. 저장, 보존, 삭제 및 접근 제어는 모두 법적 효력을 가지며, 특히 GDPR, CCPA 및 BIPA(일리노이주)에 따라 엄격하게 관리됩니다.

3. 생체 정보 수집(지속적)

일반적인 통화 중에 음성을 백그라운드에서 녹음하여 시간이 지남에 따라 프로필을 개선하는 데 사용합니다. 사용자는 이러한 녹음이 진행되고 있다는 사실을 인지하지 못할 수 있습니다.

개인정보 침해: 심각함. 명시적이고, 구체적이며, 지속적인 동의 없이는 일반적으로 금지됩니다.

Owaa의 현재 상황

1단계(현재)에서는 옵션 1을 제공합니다. 이는 카탈로그 기반 음성 매칭 방식입니다. 생체 정보는 수집되지 않습니다. 화자는 상대방의 목소리를 고품질 TTS 음성으로 듣게 되는데, 이는 상대방의 전반적인 음색과 유사하지만, 미리 만들어진 음성입니다.

2단계(계획 중)에서는 옵션 2를 추가합니다. 이 옵션은 명시적인 동의를 필요로 하며, 데이터는 12개월 동안 보존됩니다. 화자는 명시적인 동의 하에 짧은 음성 샘플을 녹음하고, 모델은 학습 과정을 거쳐 이후부터는 화자의 목소리가 여러 언어로 번역되어 마치 화자 본인처럼 들립니다. 사용자는 언제든지 동의를 철회하고 모델을 삭제할 수 있으며, 명시적인 철회 없이도 12개월 동안 데이터가 보존됩니다.

옵션 3은 제공하지 않습니다.

동의 방식이 모델보다 중요한 이유

음성을 복제하는 기술은 이제 널리 보급되어 있습니다. 오픈 소스 모델을 사용하면 30초 분량의 오디오만으로도 그럴듯한 복제 음성을 생성할 수 있습니다. 어려운 부분은 모델 자체가 아닙니다. 다음 사항들을 반드시 확인해야 합니다.

  • 사용자가 녹음 사실을 인지하고 있어야 합니다.
  • 사용자는 제품의 나머지 기능을 유지하면서 녹음을 거부할 수 있어야 합니다.
  • 데이터는 이동 및 삭제가 가능해야 합니다.
  • 사용 범위가 제한적이어야 합니다(번역된 통화만 허용, 일반적인 신분 도용은 금지).
  • 데이터 보존 기간은 12개월로 제한되어야 합니다.
  • 동의는 언제든지 철회할 수 있어야 합니다.

이 중 하나라도 어긋나면 번역 제품의 탈을 쓴 감시 제품을 출시하는 것과 다름없습니다. 모델 자체는 쉬운 부분입니다.

실제 사용자 경험

현재 저희 고객센터로 전화하시는 경우(1단계), 누구도 사용자의 목소리를 녹음하거나 복제하지 않습니다. 사용자의 목소리 톤과 유사한 기본 음성 위에 번역된 음성이 덧씌워집니다. 그게 전부입니다.

2단계가 출시되면 녹음이 시작되기 전에 음성 복제 기능을 사용할지 여부를 명확하고 이해하기 쉬운 언어로 묻게 됩니다. 사용하지 않으시면 1단계와 동일한 경험을 제공받으실 수 있습니다. 이 기능을 활성화하면 *사용자 계정에서만* 사용할 수 있으며, 위에서 설명한 설정으로 관리할 수 있습니다.

2단계 출시 전에 전체 동의 절차 및 데이터 보존 정책을 규정 준수 페이지에 게시할 예정입니다.

통화 상대방은 어떻게 될까요?

중요한 비대칭성: 번역된 통화에서 수신자는 발신자의 AI 변환된 음성을 듣게 됩니다. 발신자의 원어 음성을 듣는 것이 아닙니다. 따라서 수신자는 새로운 것을 경험하는 것이 아니라 평소처럼 전화를 받는 것입니다.

하지만 수신자에게 해당 통화가 AI를 통해 이루어졌다는 사실을 알려야 하는지에 대한 문제가 있습니다. 관할 지역마다 관련 규정이 다릅니다.

  • 미국 소비자 개인정보 보호법(TCPA)은 현재 AI 기반 번역에 대한 고지를 의무화하지 않지만, 발신 자동 다이얼링에 대해서는 의무화하고 있습니다.
  • EU AI 법(작성 시점 기준)은 번역 시스템을 "제한적 위험"으로 분류하고 사용자 동의보다는 인식 제고를 권장합니다.
  • 일부 통신사는 발신 통화 시 AI로 변조된 음성에 대해 알림음이나 안내 방송을 요구합니다.

저희는 확실하지 않을 경우 기본적으로 이를 고지합니다. 상담원을 통해 발신되는 통화의 경우 수신자에게 "번역 기능 사용 중"이라는 짧은 안내 방송이 나옵니다. 수신 전화(핫라인)의 경우 발신자가 시스템 사용을 선택했기 때문에 고지가 필요하지 않습니다.

향후 전망

음성 보존 번역은 엄격한 동의 절차와 명확한 보존 규칙 하에 제공될 때 매우 강력한 기능입니다. 하지만 이러한 조건 없이 제공될 경우 불편함을 야기할 수 있습니다. 기업의 실패는 기술적인 부분에 있는 것이 아니라 정책적인 부분에 있습니다. Owaa는 정책 수립을 우선시하고 모델 구축은 그 후에 진행할 계획입니다.

더 보기

음성 보존 번역: 기능, 동의 및 복제 윤리 · Owaa