← all posts··8 min

الترجمة مع الحفاظ على الصوت: الإمكانية، والموافقة، وأخلاقيات الاستنساخ

عندما نصف خدمة Owaa بأنها "ترجمة فورية للمكالمات بصوتك"، يتبادر إلى ذهن المستخدمين سؤالان:

1. كيف يتم الحفاظ على صوت المتحدث عبر اللغات؟

2. هل ينبغي السماح بذلك أصلاً؟

يستحق كلا السؤالين إجابات واضحة، وهذا ما تقدمه هذه المقالة.

ثلاثة أمور تُعرف عادةً باسم "الحفاظ على الصوت"

يُستخدم هذا المصطلح بشكل فضفاض، فهناك ثلاثة أمور مختلفة تمامًا:

1. مطابقة الصوت (بناءً على قاعدة بيانات)

يختار النظام الصوت الأنسب من قاعدة بيانات تضم أصواتًا طبيعية عالية الجودة. تحتوي قاعدة البيانات على عشرات الأصوات المتنوعة من حيث الجنس، والطبقة الصوتية، والخلفية اللغوية، والنبرة العاطفية. يستمع النظام إلى المتحدث لبضع ثوانٍ، ويصنفه (الجنس، والطبقة الصوتية التقريبية، والفئة العمرية)، ثم يختار الصوت الأقرب من قاعدة البيانات. يظل الصوت الناتج متسقًا عبر اللغات المختلفة نظرًا لاستخدام نفس الصوت المُسجّل لكل طرف طوال المكالمة.

أثر الخصوصية: معدوم. لا يتم جمع أي بيانات بيومترية. الصوت الذي يسمعه المستمع هو مجرد بيانات صوتية.

2. استنساخ الصوت (بناءً على نموذج):

يتم تدريب نموذج صوتي خاص بكل مستخدم من عينة صوتية مسجلة (عادةً من 30 إلى 60 ثانية من الكلام الواضح). يستطيع النموذج بعد ذلك توليف صوت *ذلك الشخص تحديدًا* بأي لغة مدعومة. هذا ما يتصوره معظم الناس عندما يسمعون "صوتك بلغات مختلفة".

أثر الخصوصية: كبير. عينة الصوت هي بيانات بيومترية. تخضع عمليات التخزين والاحتفاظ والحذف والتحكم في الوصول إلى هذه البيانات لأحكام قانونية، خاصةً بموجب اللائحة العامة لحماية البيانات (GDPR) وقانون خصوصية المستهلك في كاليفورنيا (CCPA) وقانون حماية المعلومات البيومترية في إلينوي (BIPA).

3. التقاط البيانات البيومترية (مستمر):

يتم تسجيل الصوت في الخلفية أثناء المكالمات العادية، ويُستخدم لتحسين ملف تعريف المستخدم بمرور الوقت. قد لا يلاحظ المستخدمون حدوث ذلك.

أثر الخصوصية: شديد. يُحظر هذا الأمر عمومًا دون موافقة صريحة ودقيقة ومستمرة.

وضع Owaa الحالي

المرحلة الأولى (الحالية) تُتيح الخيار 1: مطابقة الصوت بناءً على فهرس. لا يتم جمع أي بيانات بيومترية. يسمع المتحدث صوت الشخص الآخر مُحوَّلًا بتقنية تحويل النص إلى كلام عالية الجودة تُطابق نبرته العامة، ولكنه صوت افتراضي.

المرحلة الثانية - المُخطط لها - تُضيف الخيار 2 مع موافقة صريحة وسياسة احتفاظ بالبيانات لمدة 12 شهرًا. يُسجل المتحدث عينة صوتية قصيرة بموافقة صريحة، ويتم تدريب النموذج، ومنذ ذلك الحين، يبدو صوته المُترجم عبر اللغات مُشابهًا لصوته. يُمكن للمستخدمين إلغاء الموافقة وحذف النموذج في أي وقت، مع فترة صلاحية ثابتة لمدة 12 شهرًا حتى بدون إلغاء صريح.

لن نُصدر الخيار الثالث أبدًا.

لماذا يُعد تصميم الموافقة أهم من النموذج؟

أصبحت القدرة التقنية على استنساخ الصوت متاحة على نطاق واسع الآن - إذ يُمكن للنماذج مفتوحة المصدر إنتاج نسخة مُقنعة من 30 ثانية من الصوت. لا تكمن الصعوبة في النموذج نفسه، بل في التأكد مما يلي:

  • أن المستخدم على دراية بما يحدث.
  • أن بإمكان المستخدم الرفض دون فقدان باقي مزايا المنتج.
  • أن تكون البيانات قابلة للنقل والحذف.
  • أن يكون الاستخدام محدودًا (المكالمات المترجمة فقط، وليس انتحال الشخصية بشكل عام).
  • أن تكون مدة الاحتفاظ بالبيانات محددة (12 شهرًا).
  • أن تكون الموافقة قابلة للإلغاء في أي وقت.

إذا أخطأت في أي من هذه النقاط، فستُصدر منتج مراقبة مُقنّعًا كمنتج ترجمة. النموذج هو الجزء الأسهل.

ماذا يعني هذا عمليًا للمستخدمين؟

إذا اتصلت بخطنا الساخن اليوم (المرحلة 1)، فلن يقوم أحد بتسجيل صوتك أو استنساخه. ستحصل على صوت مترجم بدلاً من صوت مُسجّل مُسبقًا يُناسب نبرة صوتك بشكل معقول. هذا كل شيء.

عند إطلاق المرحلة الثانية، سيُطلب منك - بشكل صريح وواضح، قبل بدء أي تسجيل - تحديد ما إذا كنت ترغب في تفعيل خاصية استنساخ الصوت. إذا لم ترغب بذلك، فستبقى على تجربة المرحلة الأولى. أما إذا رغبت بذلك، فستُفعّل هذه الخاصية لحسابك فقط، مع إمكانية التحكم بها كما هو موضح أعلاه.

سننشر آلية الموافقة الكاملة وسياسة الاحتفاظ بالبيانات على صفحة الامتثال (/compliance) قبل إطلاق المرحلة الثانية.

ماذا عن الطرف الآخر من المكالمة؟

فرق جوهري: يسمع المتلقي في أي مكالمة مترجمة نسخة مُعالجة بالذكاء الاصطناعي من صوت المتصل. فهو لا يسمع صوت المتصل الأصلي بلغته. لذا، لا يتعرض المتلقي لأي شيء جديد - فهو يتلقى مكالمة هاتفية كالمعتاد.

مع ذلك، يبقى التساؤل مطروحًا حول ما إذا كان ينبغي إخبار المتلقي بأن المكالمة مُعالجة بالذكاء الاصطناعي. تختلف القواعد باختلاف الأنظمة القضائية:

  • لا يشترط قانون حماية المستهلك عبر الهاتف (TCPA) في الولايات المتحدة حاليًا الإفصاح عن الترجمة التي تتم بواسطة الذكاء الاصطناعي، ولكنه يشترط ذلك للاتصال التلقائي الصادر.
  • يصنف قانون الذكاء الاصطناعي في الاتحاد الأوروبي (حتى تاريخ كتابة هذا التقرير) أنظمة الترجمة على أنها "محدودة المخاطر" ويوصي بتوعية المستخدم، وليس بمنحه الموافقة.
  • تشترط بعض شركات الاتصالات إصدار نغمة أو إعلان صوتي لأي صوت مُعدّل بواسطة الذكاء الاصطناعي في المكالمات الصادرة.

في حال الشك، نلجأ تلقائيًا إلى الإفصاح. يسمع المتلقي إعلانًا موجزًا "تم تفعيل الترجمة" في المكالمات الصادرة التي تتم عبر الموظف. لا يحتاج الخط الساخن (للمكالمات الواردة) إلى الإفصاح لأن المتصل الوارد اختار استخدام النظام.

النتائج المترتبة

تُعدّ الترجمة مع الحفاظ على الصوت ميزة فعّالة عند تطبيقها ضمن تصميم مُحكم للموافقة وقواعد احتفاظ واضحة. أما عند تطبيقها بدون ذلك، فتصبح ميزة مثيرة للريبة. لا يكمن فشل الشركات في الجانب التقني، بل في الجانب المتعلق بالسياسات. وتتمثل خطة Owaa، المكتوبة، في إنجاز العمل المتعلق بالسياسات أولًا، ثم العمل على النموذج ثانيًا.

اقرأ المزيد

...الامتثال - حظر المكالمات الطارئة، قانون حماية المستهلك عبر الهاتف، الموافقة البيومترية الصوتية](/compliance)

الترجمة التي تحافظ على الصوت: القدرة، والموافقة، وأخلاقيات الاستنساخ · Owaa