G42 تطلق نماذج ذكية جديدة تدعم اللغة العربية
G42 تطلق JAIS 70B و20 نموذجاً آخر للذكاء الاصطناعي لدعم معالجة اللغة العربية
أطلقت شركة إنسيبشن، التابعة لشركة G42 والمتخصصة في تطوير نماذج وتطبيقات الذكاء الاصطناعي المتقدمة، أحدث نماذجها اللغوية الكبيرة JAIS 70B.
G42 تطلق JAIS 70B و20 نموذجاً آخر للذكاء الاصطناعي لدعم معالجة اللغة العربية
وبحسب ما ذكرته تقارير تقنية، فإن هذا النموذج، الذي يحتوي على 70 مليار متغير، مصمم خصيصاً للمطورين الذين يعملون على حلول معالجة اللغة العربية.
ويهدف النموذج إلى تسريع دمج خدمات الذكاء الاصطناعي التوليدي في مختلف الصناعات، وتعزيز القدرات في مجالات، مثل خدمة العملاء وإنشاء المحتوى وتحليل البيانات.
ويتميز JAIS 70B بقدراته اللغوية العربية والإنجليزية على نطاق غير مسبوق في مجتمع المصدر المفتوح.
وبفضل احتوائه على 70 مليار متغير، يتمتع النموذج بقدرة متزايدة على التعامل مع المهام المعقدة والدقيقة، بالإضافة إلى قدرة أفضل على معالجة مجموعات البيانات الضخمة.
وتم تطوير JAIS 70B باستخدام التدريب المستمر، وهي عملية ضبط النموذج المدرب مسبقاً، على 370 مليار رمز، منها 330 مليار رمز عربي، وهي أكبر مجموعة بيانات عربية تستخدم لتدريب نموذج أساسي مفتوح المصدر على الإطلاق.
وفي هذا الإصدار، كشفت الشركة أيضاً عن مجموعة شاملة من نماذج JAIS الأساسية والمدربة مسبقاً، وعددها 20 نموذجاً، بأحجام تتراوح من 590 مليون إلى 70 مليار متغير، ومدربة خصيصاً لتطبيقات الدردشة، باستخدام ما يصل إلى 1.6 تريليون توكن من البيانات العربية والإنجليزية والرمزية.
واستجابة لآراء مجتمع معالجة اللغة العربية، يوفر هذا الإصدار الشامل مجموعة واسعة من الأدوات، بما في ذلك أول نموذج صغير الحجم يركز على اللغة العربية يمكن تشغيله على الكمبيوتر المحمول، مما يوفر نماذج صغيرة وفعالة من حيث الحوسبة للتطبيقات المستهدفة، وأحجام نماذج متقدمة للدقة المؤسسية.
وتستوعب هذه المجموعة من نماذج JAIS مجموعة واسعة من حالات الاستخدام، وتهدف إلى تسريع الابتكار والتطوير، وكذلك فرص البحث لتطبيقات متعددة للمجتمع الناطق بالعربية ومزدوج اللغة.
وقال الدكتور أندرو جاكسون، الرئيس التنفيذي لشركة إنسيبشن: "أصبح الذكاء الاصطناعي الآن قوة مضافة للقيمة، وكانت النماذج اللغوية الكبيرة في طليعة زيادة اعتماد الذكاء الاصطناعي.”
وتابع قائلاً: “تم إنشاء JAIS للحفاظ على التراث والثقافة واللغة العربية، ولتسهيل الوصول إلى الذكاء الاصطناعي. ويعزز إطلاق JAIS 70B، وهذه العائلة الجديدة من النماذج، التزامنا بتوفير نموذج أساس الذكاء الاصطناعي الأعلى جودة للدول الناطقة بالعربية.”
وأضاف جاكسون قائلاً: “إن تقنيات التدريب والتكيف التي نقدمها بنجاح للنماذج العربية، قابلة للتوسع إلى لغات أخرى غير مدعومة، ونحن متحمسون لإيصال هذه الخبرة إلى بلدان أخرى".
وأطلقت إنسيبشن نموذجي AIS-13B وJAIS-13B-chat في أغسطس 2023، وأطلقت لاحقاً النماذج المتطورة التي تركز على اللغة العربية JAIS-30B وJAIS-30B-chat. وقد ثبت أن JAIS-70B وJAIS-70B-chat. يتمتعان بأداء أفضل في مقاييس البيانات باللغتين الإنجليزية والعربية، مقارنة بالنماذج السابقة.
ومن جانبها، قالت نيها سينغوبتا، عالمة التطبيقات الرئيسية في إنسيبشن: "بالنسبة للنماذج التي تصل إلى 30 مليار متغير، قمنا بتدريب JAIS من الصفر بنجاح متفوقة على النماذج المكيفة في المجتمع.”
وتابعت قائلة: "ومع ذلك، بالنسبة للنماذج التي تزيد عن 70 مليار متغير، كانت تعقيد الحوسبة والأثر البيئي للتدريب من الصفر، كبيراً. اتخذنا قراراً ببناء JAIS-70B على نموذج Llama2، مما يسمح لنا بالاستفادة من قاعدة المعرفة الواسعة لنموذج إنجليزي موجود، وتطوير حل أكثر كفاءة واستدامة".
ويحافظ JAIS-70B على قدرات معالجة اللغة الإنجليزية عالية الجودة لـ Llama2، وفي حالات معينة يتجاوزها، مع تفوق كبير في المخرجات العربية، مقارنة بالنموذج الأساسي.
وقام فريق تطوير JAIS بتدريب النموذج بناء على رموز Llama2، لتحسين كفاءة معالجة النص العربي، ومضاعفة مفردات النموذج الأساسية.
ووفقاً لسينغوبتا، فإن النموذج يقسم الكلمات العربية بشكل أقل حدة، ويجعل التدريب والاستدلال أرخص من نموذج Llama2 القياسي.