جوجل تطلق أداة ذكاء اصطناعي جديدة لدمج الصور
تسمح أداة Whisk بتحميل الصور للحصول على صورة مجمعة دون الحاجة إلى إدخال أي نص
أطلقت جوجل أحدث أداة ذكاء اصطناعي لها، "Whisk"، والتي تسمح للمستخدمين بتحميل الصور للحصول على صورة مجمعة تم إنشاؤها بواسطة الذكاء الاصطناعي - دون الحاجة إلى إدخال أي نص لشرح ما يرغبون فيه.
مزايا ووظائف "Whisk"
يستطيع المستخدمون إدخال صور توضح الموضوع، والإعداد، والأسلوب قبل أن تقوم "Whisk" بدمج كل شيء في صورة واحدة.
فيديو ذات صلة
This browser does not support the video element.
وصف جوجل "Whisk" بأنها أداة إبداعية توفر إلهامًا سريعًا، وليست أداة تحرير صور تقليدية، بعبارة أخرى، تهدف "Whisk" إلى أن تكون ميزة ممتعة تعتمد على الذكاء الاصطناعي، بدلاً من أن تكون منتجًا احترافيًا مكررًا.
وتتنافس الشركات التقنية الكبرى مثل جوجل وOpenAI لإطلاق منتجات استهلاكية يمكنها عرض استخدامات للتكنولوجيا الحديثة الجذابة، رغم تحذيرات المشككين من أن عدم وجود ضوابط صارمة حول تطوير الذكاء الاصطناعي يشكل خطرًا على البشرية.
التنافس في سوق الذكاء الاصطناعي
منذ أن أطلقت OpenAI أداة إنشاء الصور من النصوص، Dall-E، في عام 2021، اجتاح مفهوم الفنون التي يولدها الذكاء الاصطناعي وسائل التواصل الاجتماعي، وأصبح محط اهتمام المنتجات الاستهلاكية، يعد "Whisk" مولدًا للصور من الصور، يعتمد على مفهوم مولدات النص إلى الصور الشعبية.
يمكن للأشخاص الذين يستخدمون "Whisk" "إعادة خلط" الصورة النهائية بتحرير مدخلاتهم ومزج الفئات لإنتاج صور مختلفة مثل لعبة محشوة، أو دبوس معدني، أو ملصق، كما يمكن للمستخدمين إضافة نص إذا أرادوا توجيه تفاصيل معينة، لكن ذلك ليس ضروريًا لإنشاء الصورة.
الأسس التكنولوجية وراء "Whisk"
قال توماس إليجيك، مدير إدارة المنتجات في Google Labs، في بيان: "تم تصميم "Whisk" للسماح للمستخدمين بإعادة خلط موضوع، مشهد وأسلوب بطرق جديدة ومبتكرة، مما يوفر استكشافًا بصريًا سريعًا بدلاً من تحرير البكسل بدقة".
وقد تم بناء "Whisk" على الذكاء الاصطناعي التوليدي الذي تم تطويره بواسطة DeepMind، مختبر الذكاء الاصطناعي الذي استحوذت عليه جوجل في عام 2014.
ويعمل "Whisk" باستخدام جوهر الذكاء الاصطناعي لجوجل، Gemini، والذي تم إطلاقه في ديسمبر 2023، ويتم دمجه مع Imagen 3، أحدث مولد نص إلى صورة تم إصداره بواسطة DeepMind في ديسمبر.
فعند تحميل المستخدمين لصورهم، يقوم Gemini بإنشاء وصف يتم إرساله إلى Imagen 3، وتلتقط العملية "جوهر" الموضوع بدلاً من النسخة المطابقة، مما يسمح بإعادة خلط الصورة النهائية، ولكن يعني أيضًا أن المنتج النهائي قد ينحرف عن المدخلات الأصلية.
على سبيل المثال، قد تكون الصورة المولدة لها ارتفاعاً مختلفاً، أو تسريحة شعر، أو لون بشرة مختلف عن صور المدخلات، كما ذكرت جوجل في منشور على مدونتها.
وعند إطلاق جوجل لأول مرة لمنشئ النص إلى الصورة الخاص بـ Gemini في فبراير، واجهت الشركة انتقادات أولية؛ لأن الأداة أنتجت صورًا تاريخية غير دقيقة.
موعد إطلاق Whisk
ويتم توفير "Whisk" لأول مرة كموقع ويب على Google Labs للمستخدمين في الولايات المتحدة وهو في مراحله الأولى من التطوير، وفقًا للشركة.
كما أطلقت OpenAI مؤخرًا مولد نص إلى فيديو يسمى Sora، مما يبرز المنافسة في المنتجات الاستهلاكية.
وقال دان إيفز، المدير الإداري والمحلل الكبير في Wedbush Securities، لـ CNN أن "Whisk" هو لحظة "استعراض العضلات" أخرى لجوجل في سباق الذكاء الاصطناعي والتكنولوجيا.
وأشار آيفز إلى أن DeepMind هو أصل أساسي لجوجل، مؤكدًا أن منتجات الذكاء الاصطناعي هي جزء من "صندوق الكنز" لجوجل من المنتجات الجديدة لعام 2025، والتي تشمل أيضًا نظام تشغيل أندرويد جديد تم تطويره بالتعاون مع سامسونج وكوالكوم.