لماذا تُعدّ الترجمة الصوتية الفورية في المكالمات الهاتفية صعبة للغاية؟
إذا سبق لك استخدام تطبيق ترجمة يتطلب منك الضغط على زر، ثم الانتظار، ثم الضغط على زر آخر، فأنت تُدرك الفرق الشاسع بين *الترجمة* و*الترجمة الفورية*. الأولى أداة، والثانية محادثة. سدّ هذه الفجوة في مكالمة هاتفية عادية أصعب مما يبدو، لأن شبكة الهاتف لم تُصمّم أصلًا لهذا الغرض.
هذه المقالة تُقدّم شرحًا مبسطًا للمستخدم حول صعوبة الترجمة الفورية، دون الخوض في تفاصيل خيارات التنفيذ.
ما المقصود بـ "الترجمة الفورية"؟
الترجمة الفورية تعني أن المحادثة تسير بوتيرة طبيعية، أي بوتيرة المحادثة البشرية. عمليًا، يعني ذلك تأخيرًا لا يتجاوز نصف ثانية بين توقف أحد الطرفين عن الكلام وبدء الطرف الآخر في سماع الترجمة. أي تأخير يزيد عن ذلك يجعل المكالمة أشبه بجهاز لاسلكي. أما التأخير الأقل من 500 مللي ثانية فهو نادر، حتى بالنسبة للبشر.
يتطلب تحقيق هذا الهدف سلسلة من العمليات تتم جميعها بسرعة:
1. يحتاج النظام إلى معرفة متى تنتهي الجملة. قد يبدو هذا بديهيًا، ولكنه ليس كذلك. فالهواتف تحمل أصوات التنفس، وضوضاء الغرفة، وأصواتًا أخرى تبدو كأنها كلام بالنسبة لأنظمة الكشف البسيطة.
2. يحتاج النظام إلى فهم ما قيل. لقد تطورت تقنية التعرف على الكلام بشكل كبير عما كانت عليه قبل عشر سنوات، ولكن اللهجات المحلية، وظروف الاتصال الرديئة لا تزال تُربك النماذج.
3. يحتاج النظام إلى الترجمة بدقة. غالبًا ما تُنتج الترجمة كلمة بكلمة كلامًا غير مفهوم بين اللغات ذات ترتيب الكلمات المختلف. أما الترجمة على مستوى الجملة فهي أكثر دقة ولكنها أبطأ.
4. يحتاج النظام إلى نطق النتيجة بصوت طبيعي لا يشبه صوت روبوت يقرأ الأخبار.
تستهلك كل مرحلة من هذه المراحل الأربع جزءًا من زمن الاستجابة المتاح. ويملك النظام حوالي نصف ثانية لإتمام المراحل الأربع جميعها من البداية إلى النهاية.
لماذا تُعدّ المكالمات الهاتفية أصعب من مكالمات الفيديو؟
تتمتع التطبيقات التي تُجري مكالمات الفيديو بين متصفحين بميزات عديدة لا تتوفر في المكالمات الهاتفية:
- جودة صوت أعلى: يُقدّم صوت المتصفح بجودة استوديو احترافية. بينما تُقدّم المكالمات الهاتفية بجودة صوت أقل، وهي المواصفات التي صُممت الشبكة من أجلها في ثمانينيات القرن الماضي - نطاق تردد أضيق، وتشويش أكبر ناتج عن الضغط. كما أن تقنية التعرّف على الكلام لديها إمكانيات أكبر للعمل عليها في صوت المتصفح مقارنةً بصوت الهاتف.
- معالجة من جانب المستخدم: تستطيع تطبيقات المتصفح معالجة الصوت مسبقًا على جهاز المستخدم - إلغاء الصدى، وكتم الضوضاء، واكتشاف حدود الجمل. لا تُقدّم الهواتف أيًا من هذه الميزات للمُتصل.
- مسار شبكة مُتحكّم به: يتفاوض المتصفح على المسار بين نقطتي النهاية. بينما تمر المكالمات الهاتفية عبر أي مسار تختاره الشبكة.
- شاشة ثانية احتياطية: يُمكن لمكالمات الفيديو عرض الترجمة، واختيار اللغة، وأزرار كتم الصوت. بينما تقتصر المكالمات الهاتفية على الصوت فقط.
أكبر عائق أمام شبكة الهاتف هو في الوقت نفسه أكبر ميزة لها: لا يحتاج المتلقي إلى تطبيق. هذا هو السبب الرئيسي وراء فائدة المكالمات الهاتفية المترجمة للتواصل مع الأجداد والموردين وموظفي الخطوط الساخنة وأي شخص آخر لا يرغب بتثبيت أي برنامج. يكمن جوهر المنتج في إخفاء التعقيدات التقنية وراء عبارة "الرد على الهاتف كالمعتاد".
أين يكمن التأخير
تستغرق المكالمة المترجمة الفورية السليمة الوقت التقريبي التالي لكل اتجاه:
- اكتشاف نهاية الجملة: حوالي 500 مللي ثانية (مضبوطة بدقة - إذا كانت قصيرة جدًا، فإنها تقطع الاتصال، وإذا كانت طويلة جدًا، فإنها تؤخر المكالمة)
- التعرف على ما قيل: حوالي 100 مللي ثانية بعد نهاية الجملة
- الترجمة إلى اللغة المستهدفة: حوالي 100 مللي ثانية
- توليف الصوت المترجم: حوالي 150 مللي ثانية
- عبء الشبكة والتنسيق: حوالي 100 مللي ثانية
الإجمالي: حوالي 600 مللي ثانية في المتوسط، وقد يصل أحيانًا إلى ثانية واحدة في المكالمات ذات التشويش. لهذا السبب تبدو المكالمات المترجمة فورياً وكأنها مكالمة عبر الأقمار الصناعية مع تأخير طفيف.
كيف تبدو الترجمة الجيدة
بعض علامات نجاح النظام:
- يتحدث الطرفان بشكل طبيعي. لا حاجة لتدريب على التحدث ببطء. لا توقف بين كل كلمة وأخرى.
- يحافظ كل متحدث على نبرة صوته. الترجمة التي تبدو كأنها روبوت يقرأ ترجمة نصية تبدو وكأنها مكالمة أجنبية. أما الترجمة التي تتطابق مع نبرة المتحدث فتبدو وكأنها محادثة حقيقية.
- يمكنك المقاطعة. المحادثات الحقيقية تتضمن تداخلاً. النظام يتعامل مع ذلك دون انقطاع الصوت.
- يعمل تبديل اللغة. الأشخاص الذين يتحدثون لغتين غالباً ما يمزجون بينهما. النظام يواكب ذلك.
مواضع ضعف الترجمة
الترجمة الآلية الفورية ليست سحراً. لا تزال بعض الأمور تؤثر على الجودة:
- اللهجات الإقليمية الشائعة. اللغة القياسية للغات الرئيسية تُترجم بشكل جيد. لكن اللهجات المحلية الشائعة لا تزال تُسبب مشاكل للنظام.
مواضع ضعف الترجمة
الترجمة الآلية الفورية ليست سحراً. لا تزال بعض الأمور تؤثر على الجودة:
- اللهجات الإقليمية الشائعة. اللغة القياسية للغات الرئيسية تُترجم بشكل جيد. لكن اللهجات المحلية الشائعة لا تزال تُسبب مشاكل للنظام.
- متحدثون متعددون في وقت واحد. يفترض التصميم سماع صوت واحد في كل مرة. لكن الضوضاء العالية تُضعف هذه الميزة.
- الكلام المهموس أو المرتفع. تم ضبط نماذج التعرف على مستوى الصوت الطبيعي. تؤثر مستويات الصوت المرتفعة بشكل كبير على الدقة.
- مصطلحات تقنية متخصصة. المكالمات العادية مناسبة. أما المكالمات المتعلقة بجراحات القلب والصدر أو هندسة الطيران، فقد تحتاج إلى مترجم بشري متخصص.
الإطار الصحيح هو: الترجمة الفورية بالذكاء الاصطناعي تُجيد التعامل مع معظم المحادثات. أما طرفا المحادثة - المكالمات العادية والمكالمات المتخصصة ذات الأهمية البالغة - فقد يحتاجان أحيانًا إلى مترجم بشري.