ChatGPT .. من أين يستمد معلوماته وهل هو مصدر ثقة

GPT-3 (Generative Pretrained Transformer 3) و GPT-4 هي أحدث نماذج الذكاء الاصطناعي لمعالجة اللغة التي طورتها شركة OpenAI.

  • تاريخ النشر: الثلاثاء، 02 مايو 2023
ChatGPT .. من أين يستمد معلوماته وهل هو مصدر ثقة

ما هي مصادر البيانات الخاصة بـ ChatGPT؟ نحن جميعًا نكافح مع الطبيعة الاستكشافية للذكاء الاصطناعي، ولكن معرفة مصدر البيانات قد يوفر بعض الأفكار حول أنواع النتائج التي يجب أن نتوقعها. في المقال التالي سوف نستعرض ChatGPT .. من أين يستمد معلوماته وهل هو مصدر ثقة

ما هو GPT-3 و GPT-4 و ChatGPT؟

GPT-3 (Generative Pretrained Transformer 3) و GPT-4 هي أحدث نماذج الذكاء الاصطناعي لمعالجة اللغة التي طورتها شركة OpenAI. إنهم قادرون على إنشاء نص يشبه الإنسان ولديهم مجموعة واسعة من التطبيقات ، بما في ذلك ترجمة اللغة ونمذجة اللغة وإنشاء نصوص لتطبيقات مثل روبوتات المحادثة. GPT-3 هو واحد من أكبر وأقوى نماذج الذكاء الاصطناعي لمعالجة اللغة حتى الآن ، مع 175 مليار معلم.ChatGPT .. من أين يستمد معلوماته وهل هو مصدر ثقة

بعبارات أقل تتعلق بالشركات ، يمنح GPT-3 المستخدم القدرة على إعطاء ذكاء اصطناعي مدرب لمجموعة واسعة من المطالبات المصوغة. يمكن أن تكون هذه أسئلة أو طلبات كتابة حول موضوع من اختيارك أو عددًا كبير من الطلبات المصاغة الأخرى. هذا يعني ببساطة أنه برنامج قادر على فهم اللغة البشرية كما يتم التحدث بها وكتابتها ، مما يسمح بفهم المعلومات المصاغة التي يتم تغذيتها ، وما يجب أن ينطق به.

من أين يستمد ChatGPT معلوماته.

ChatGPT هو نموذج لغة ذكاء اصطناعي ، تم تدريبه على مجموعة كبيرة من النصوص من مجموعة متنوعة من المصادر (مثل ويكيبيديا والكتب والمقالات الإخبارية والمجلات العلمية). حيث ارتفعت مجموعة البيانات الخاصة به فقط حتى عام 2021 (يتم تحديثها مع الوقت) ، مما يعني أنه يفتقر إلى معلومات عن الأحداث الأخيرة.

من المهم أيضًا أن تفهم أن ChatGPT لا يصل إلى قاعدة بيانات للحقائق للإجابة على أسئلتك. بدلاً من ذلك ، يستند في ردوده على الأنماط التي شاهدها في بيانات التدريب.

لذا فإن ChatGPT ليس دائمًا جديرًا بالثقة. يمكن أن يجيب عادةً على أسئلة المعرفة العامة بدقة ، ولكن يمكنه بسهولة تقديم إجابات مضللة حول مواضيع أكثر تخصصًا.

النتيجة الأخرى لهذه الطريقة في توليد الردود هي أن ChatGPT لا يستطيع عادةً الاستشهاد بمصادرها بدقة. فهو لا يعرف حقًا المصدر الذي يستند إليه أي مطالبة محددة. من الأفضل التحقق من أي معلومات تحصل عليها من مصدر موثوق.

ChatGPT .. من أين يستمد معلوماته وهل هو مصدر ثقة

كيف تعلم ChatGPT (GPT-3) كتابة رمز البرنامج.

كيف تعلم GPT-3 البرمجة؟ إنه موجود في بيانات التدريب الخاصة به. حيث يمكن لـ GPT-3 إنشاء رمز برمجة لأنه تم تدريبه على مجموعة بيانات كبيرة من النص تتضمن أمثلة على كود البرمجة. هذا يسمح له بتعلم أنماط وهياكل ونحو لغات البرمجة المختلفة.

يستخدم GPT-3 فهمه للغات البرمجية وقدرته على إنشاء نص يشبه الإنسان لإنتاج كود يكون صحيحًا من الناحية التركيبية ويتبع اصطلاحات اللغة. ومع ذلك ، من المهم ملاحظة أن GPT-3 ليس نموذج لغة برمجة كامل الميزات وليس لديه نفس مستوى فهم مفاهيم البرمجة ومنطقها مثل المبرمج البشري. إنه أكثر من أداة لإكمال التعليمات البرمجية ، يمكنه إنشاء مقتطفات تعليمات برمجية صحيحة نحويًا وتتبع اصطلاحات اللغة ، ولكنه قد لا يفهم دائمًا المنطق أو الغرض من الكود الذي ينشئه. والأهم من ذلك أنه لا يمكنه التحقق من صحة الكود الذي ينشئه ، ولا يمكنه تصحيحه بمفرده.

ChatGPT .. من أين يستمد معلوماته وهل هو مصدر ثقة

ما هي مصادر بيانات DALL-E-2 لتوليد النص إلى صورة.

قبل وجود ChatGPT ، كان هناك إنشاء تحويل النص إلى صورة وكان نموذج OpenAI يُعرف باسم DALL-E-2. استخدم الإصدار الأول من DALL-E امتدادًا للتقنية الكامنة وراء GPT-3 ، لإنتاج الصور من خلال التنبؤ بالبكسل التالي في الصورة كما لو كانت كلمات في جملة. نجح هذا ، لكن ليس جيدًا.

بالنسبة لـ DALL-E 2 ، استخدم OpenAI نموذج الانتشار. نماذج الانتشار عبارة عن شبكات عصبية مدربة على تنظيف الصور عن طريق إزالة الضوضاء المنقطة التي تضيفها عملية التدريب. حيث تتضمن العملية التقاط الصور وتغيير عدد قليل من وحدات البكسل فيها في وقت واحد ، عبر العديد من الخطوات ، حتى يتم مسح الصور الأصلية ولا يتبقى لك سوى وحدات البكسل العشوائية. يحدث السحر عندما يتم تدريب الشبكة العصبية لعكس هذه العملية والتنبؤ بالشكل الذي ستبدو عليه النسخة الأقل بكسلًا من صورة معينة.

تسترشد هذه العملية بنموذج اللغة الذي يحاول مطابقة موجه بالصور التي ينتجها نموذج الانتشار. هذا يدفع نموذج الانتشار نحو الصور التي يعتبرها نموذج اللغة مطابقة جيدة.

إذن ، من أين تأتي الصور التي تم تدريب DALL-E-2 عليها. مثل الزحف المشترك ، هناك مصدر آخر مجاني للاستخدام يسمى LAION. يحتوي LAION على مليارات من أزواج النصوص والصور المأخوذة من الإنترنت. حيث يعثر LAION على الصور عن طريق تحليل بيانات الزحف المشتركة ، وتحديد جميع علامات HTML IMG التي تحتوي على سمة النص البديل. وفقًا لموقع LAION على الويب ، بعد تصفية 50 + مليار مرشح ، يتم تركهم بأقل من 6 مليارات ، ومن ثم يشار إلى مجموعة البيانات باسم Laion5B.

فلماذا كل هذا مهم؟ تعد نماذج الذكاء الاصطناعي التوليدية جزئيًا نتاج هندستها المعمارية ومقياسها المُقاس بالمعلومات والطبقات ولكنها تعتمد أيضًا على بيانات عالية الجودة يتم تنسيقها جيدًا مسبقًا. نحن جميعًا نتكيف مع حقيقة أن نماذج الذكاء الاصطناعي هي نماذج إرشادية بطبيعتها ، على عكس البرامج القائمة على الخوارزميات ، فإن النتائج لا يمكن التنبؤ بها تمامًا ، وغالبًا ما تكون غير قابلة للتكرار. إن معرفة مصدر البيانات التي تم استخدامها لتدريب هذه النماذج التوليدية ، يمنحنا بعض الأفكار حول ماهية النتائج.

ومع ذلك ، فإن السؤال الذي يبقى هو أنه مع كل الاستثمارات التي يتم إجراؤها في الذكاء الاصطناعي ، إلى متى سنكون قادرين على العثور على هذه المعلومات.

القيادي الآن على واتس آب! تابعونا لكل أخبار الأعمال والرياضة