خاصية التعرف على الأصوات من مايكروسوفت تقترب من دقة البشر
نشر فريق من مهندسي أبحاث الذكاء الاصطناعي في شركة مايكروسوفت، ورقة بحثية ذكر فيها أن النظام الذي يعملون عليه قد وصل إلى معدل خطأ في التعرف على الكلمات لا يزيد عن 5.9%، وهو رقم مساوي تقريباً للمعدل ذاته عند البشر، خطوة هائلة في سبيل تطوير قدرة الذكاء الاصطناعي والروبوتات على فهم كلامنا بدقة.
وقد وصف "شيودونج هوانج" رئيس الفريق، الوصول لهذا المعدل بأنه إنجاز تاريخي. فبعد عقود من البحث والتطوير والاختبار، تمكن الفريق من تحقيق هذا المعدل الذي يمكن اعتباره طفرة في مسار الذكاء الاصطناعي دون شك، وسوف تشهد أنظمة تشغيل ويندوز وإكس بوكس، والمساعد الذكي كورتانا، التأثير الأولى والسريع لهذه الطفرة.
فيديو ذات صلة
This browser does not support the video element.
وللوصول لهذه المستويات من الدقة، قام الباحثين بتوظيف شبكات عصبية عميقة لتخزين كم هائل من البيانات، وتساعد هذه الشبكات على مساعدة النظام في التعرف على الاختلافات بين أساليب نطق وحديث البشر، وقد تم الاستعانة بالصوت والصورة لتحديد هذه البيانات بدقة أكبر.
وقال الباحثون أنه لا يمكن القول بأن هذا المعدل لا يعني الوصول لحد الكمال، فلقد اقترب النظام من البشر وتساوى معهم إلى حد كبير ولكن لا يعني هذا أنه وصل إلى أقصى مراحل الدقة التي يفترض الوصول إليها.
ويأمل فريق الباحثون في تحقيق مستويات أعلى من الدقة، بالإضافة إلى تحسين كفاءة نظام التعرف الصوتي في المواقف اليومية العادية، مثل التعرف على الأصوات وتحديد الكلمات في المطاعم الصاخبة، الطرق المزدحمة، و الرياح القوية، كما يسعى الفريق لتحقيق نظام لا يمكنه فقط التعرف على الكلمات بدقة بل أيضاً فهمها بسهولة ويسر.