نموذج ذكي قادر على صنع محادثات واقعية من صور ثابتة

  • تاريخ النشر: منذ يوم | آخر تحديث: منذ ساعة

بايت دانس تكشف عن نموذج INFP: تحويل الصور الثابتة إلى فيديو تفاعلي باستخدام الذكاء الاصطناعي

مقالات ذات صلة
شركة صينية تكشف عن روبوت محادثة ذكي
CES 2017: إل جي تسعى بخطوات ثابتة نحو المنزل الذكي
نموذج ذكي من ElevenLabs يحول الأوامر النصية إلى كلمات أغاني

كشفت شركة بايت دانس، المالكة لتطبيق تيك توك، عن نموذج جديد للذكاء الاصطناعي اسمه INFP، والذي يعتبر نقلة نوعية في مجال تحويل الصور الثابتة إلى مقاطع فيديو تفاعلية.

بايت دانس تكشف عن نموذج INFP: تحويل الصور الثابتة إلى فيديو تفاعلي باستخدام الذكاء الاصطناعي

وبحسب ما ذكرته تقارير تقنية، فإن هذا النموذج الذكي قادر على تحويل الصور الشخصية إلى مقاطع فيديو، تبدو فيها الصور وكأنها تتحدث وتتفاعل مع المدخلات الصوتية بشكل طبيعي وواقعي.

ويعد هذا الابتكار جزء من استراتيجية الشركة لتوسيع استخدامات الذكاء الاصطناعي في تطبيقاتها الشهيرة، مثل تيك توك وCapCut.

وقالت التقارير إن نموذج INFP يتميز بقدرته على إنشاء محادثات واقعية بين شخصين في مقاطع الفيديو، دون الحاجة إلى تحديد أدوار التحدث والاستماع يدوياً.

ويعتمد النموذج الجديد على تحليل تدفق المحادثة تلقائياً لتحديد الأدوار، مما يجعل العملية أكثر سلاسة وواقعية.

وأشارت التقارير إلى أن النظام الذكي يتكون من مرحلتين رئيسيتين، موضحة أن الأولى تعتمد على تقليد حركات الرأس من خلال التقاط التفاصيل الدقيقة، مثل تعابير الوجه وحركات الرأس، من مقاطع الفيديو الحقيقية، ثم تحويل هذه البيانات إلى معلومات قابلة للاستخدام لتحريك الصور الثابتة.

أما المرحلة الثانية، فتركز على توليد الحركات استناداً إلى الصوت، حيث يتم تحليل الصوت لإنشاء أنماط حركة طبيعية للتحدث والاستماع، مع ضبط هذه الأنماط لتتناسب بشكل واقعي مع الصوت.

ولفتت التقارير إلى أنه من أجل ضمان دقة عالية في النتائج، فقد طورت شركة بايت دانس قاعدة بيانات جديدة اسمها DyConv، والتي تحتوي على أكثر من 200 ساعة من المحادثات الحقيقية التي تم جمعها من الإنترنت.

وتتميز هذه القاعدة بقدرتها على التقاط نطاق واسع من المشاعر الإنسانية بجودة فيديو عالية، مقارنة بقواعد بيانات أخرى مثل ViCo وRealTalk.

وأكدت الشركة أن نموذج INFP يتفوق على الأدوات الحالية في مطابقة حركة الشفاه مع الصوت، مع الحفاظ على ملامح الوجه الطبيعية، وإنشاء حركات واقعية للشخص أثناء الاستماع.

ونوهت التقارير إلى أنه في الوقت الحالي، فإن النموذج الذكي يعتمد على الصوت فقط، لافتة إلى أن بايت دانس تخطط لتطويره ليعمل مع النصوص والصور أيضاً، بالإضافة إلى تطوير تقنيات لتحريك الجسم كاملاً بدلاً من الرأس فقط.

ومع ذلك، ونظراً لأن الشركة تدرك المخاطر المحتملة لإساءة استخدام هذه التقنية، فقد قررت حصر استخدامها في المرحلة الحالية على الأبحاث الأكاديمية فقط.