أعلنت سامسونج أن Galaxy AI يدعم، حاليًا، التواصل بـ 16 لغة، مما يسهل تخطي حواجز اللغة من خلال الترجمة الفورية على الأجهزة. وفي هذا الإطار، فإن زيارة مراكز أبحاث سامسونج في جميع أنحاء العالم تتيح الفرصة للتعرف على بداية ظهور Galaxy AI واستكشاف التحديات التي تواجه تطوير الذكاء الاصطناعي والوقوف على حلولها. وفي الوقت الذي تناول فيه الجزء الأول من هذه السلسلة مهمة تحديد البيانات المطلوبة، فإنّ هذا الجزء يركّز على التحدي المعقد المتمثل في استيعاب اللهجات المختلفة.
وفي بلاغ لها توصل موقع “المستقبل24” بنسخة منه، كشفت سامسونغ أن تدريب نموذج الذكاء الاصطناعي على فهم لغة ما يمثل عملية معقدة، ولكن ماذا لو لم تكن لغة واحدة، بل مجموعة من اللهجات المتنوعة؟ ففي الوقت الذي تمّ فيه إضافة اللغة العربيّة لتصبح إحدى اللغات المعتمدة لدى ميّزات Galaxy AI مثل الترجمة المباشرة Live Translate؛ واجه فريق مركز سامسونج للبحث والتطوير في الأردن تحديّاً في استيعاب عدد كبير من اللهجات العربية السائدة في منطقة الشرق الأوسط وشمال أفريقيا، والتي تتميز كل منها بنطقها الفريد ومعجمها وبنيتها النحوية.
وذكر البلاغ أن اللغة العربية تأتي ضمن أكثر ست لغات انتشارًا في العالم، حيث يتحدثها يوميًا أكثر من 400 مليون شخص. وهي تصنف إلى نوعين: الفصحى “الرسميّة”، والعاميّة “اللهجات المختلفة”. تُستخدم الفصحى عادةً في المناسبات العامة والرسمية، وكذلك في نشرات الأخبار، بينما تُستخدم العاميّة بشكل أكثر شيوعًا في المحادثات اليومية، وتنتشر اللغة العربية في أكثر من 20 دولة، ويوجد حاليًا حوالي 30 لهجة في المنطقة.
وأشار البلاغ إلى أنه إدراكاً للاختلاف والتنوّع الذي تقدمه هذه اللهجات، وظف فريق مركز البحث والتطوير لدى سامسونج في الأردن مجموعة من التقنيات لتحديد ومعالجة الخصائص اللغوية الفريدة المتأصلة في كل منها. وقد أثبتت هذه المنهجيّة دورها المحوري في ضمان قدرة Galaxy AI على الفهم والاستجابة بطريقة تعكس الفروق الدقيقة بين اللهجات.
ويقول محمد حمدان، رئيس مشروع فريق تطوير اللغة العربية: “على عكس اللغات الأخرى، فإن نطق المفعول به في اللغة العربية يختلف باختلاف الفاعل والفعل في الجملة. لذا فإننا نهدف لتطوير نموذج قادر على فهم كل هذه اللهجات والرد عليها باللغة العربية الفصحى”.
إن تحويل النص إلى كلام “TTS”، يعدّ جزء لا يتجزأ من ميّزة الترجمة المباشرة Live Translate في Galaxy AI، بحيث يمكّن المستخدمين من التفاعل مع متحدثين بلغات مختلفة عن طريق تحويل الكلمات المنطوقة إلى نص مكتوب ثم نطقها لفظيًا. وقد واجه فريق تحويل النص إلى كلام تحديًا استثنائياً نابعًا من الخصوصية المتأصلة في العمل مع اللغة العربية.
في اللغة العربية، تُستخدم علامات التشكيل كوسيلة مساعدة للنطق في سياقات معينة مثل النصوص الدينية والشعر والمواد التعليمية. وفي حين أن المتحدثين الأصليين يفهمون عادةً علامات التشكيل، إلا أنها لا تُستخدم بشكل شائع في الكتابة اليومية. ويشكل هذا الغياب تحديًا أمام الآلات في تحويل الكلمات غير المشكّلة إلى وحدات صوتيّة والتي تعدّ ضرورية لتركيب الكلام.
وفي ذات السياق، يقول محمد حويله: “إن ندرة مجموعات البيانات التي يمكن الاعتماد عليها والتي تعكس بدقة الاستخدام السليم لعلامات التشكيل تعتبر تحديًا. ونتيجة لذلك، كنا بحاجة إلى تطوير نموذج عصبي قادر على التنبؤ بدقة واستعادة علامات التشكيل المفقودة”.
وأورد البلاغ أن النماذج العصبية تعمل بشكل مشابه للدماغ البشري. ومن أجل التنبؤ بعلامات التشكيل، يجب على النموذج تحليل كميات هائلة من النصوص العربية، واستيعاب اصطلاحات اللغة وقواعدها، وفهم الفروق الدقيقة في سياق استخدام الكلمات. على سبيل المثال، يمكن لنطق الكلمة بشكل كبير أن يختلف بناءً على الفعل أو الجنس الذي تشير إليه، وقد شكّل التدريب المكثف من قبل الفريق أهمية كبيرة في زيادة دقة نموذج تحويل النص إلى كلام باللغة العربية.
من جهتها، قالت آية حسن، رئيس قسم الفريق المكلّف بإنشاء قاعدة البيانات: “تولى فريق مركز سامسونج للبحث والتطوير في الأردن مهمة جمع مجموعة واسعة من التسجيلات الصوتية التي تصور لهجات مختلفة من مصادر متعددة. وقد تم نسخ هذه التسجيلات بدقة، مع التركيز على التقاط الأصوات والمفردات والتعابير الاصطلاحية الفريدة. قمنا بالاستعانة بمجموعة من المتحدثين الأصليين الذين يجيدون هذه اللهجات، ومجهزين بفهم عميق للفوارق والاختلافات بينها، حيث استمعوا بدقة إلى التسجيلات وقاموا يدويًا بنسخ الكلمات المنطوقة إلى نص”.
وأشار البلاغ إلى أن هذا المسعى لعب دورًا محوريًا في تحسين نظام التعرف التلقائي على الكلام (ASR)، وبالتالي تمكين Galaxy AI من التنقل بفعالية في النسيج الغني للهجات العربية. ويعد ASR بمثابة حجر الزاوية في تسهيل إمكانات الفهم والاستجابة في الوقت الفعلي لـ Galaxy AI.
ويُشير محمد حمدان، المسؤول عن مشروع ASR إلى أنّ إنشاء نظام ASR قادر على استيعاب العديد من اللهجات ضمن نموذج موحد يعدّ مهمة معقّدة، فهو يتطلب فهمًا عميقًا للفوارق اللغوية، وتنظيم البيانات بدقة، واستخدام استراتيجيات النمذجة المتقدمة.
وكشف البلاغ أن الجزء المقبل، سيكون في فيتنام لاستكشاف جهود الفريق في تحسين جودة البيانات اللغوية. وسيتم التعمق في المتطلبات التي ينطوي عليها تدريب نموذج الذكاء الاصطناعي الفعال.