أبحاث جديدة من ميتا والمتعاونين معها. هذه ورقة جيدة توضح ما هو ممكن باستخدام نماذج العوالم الصحيحة. النماذج العالمية تحتاج إلى إجراءات للتنبؤ بالنتائج. النهج الافتراضي اليوم يتطلب بيانات إجراءات معنونة، وهي مكلفة في الحصول عليها وتقتصر على مجالات ضيقة مثل ألعاب الفيديو أو التلاعب الروبوتي. لكن الغالبية العظمى من بيانات الفيديو على الإنترنت لا تحمل أي علامات على الإطلاق. تتناول هذه الأبحاث الجديدة تعلم نماذج عالم الفعل الكامنة مباشرة من مقاطع الفيديو الواقعية، وتوسع إلى ما هو أبعد من الإعدادات المسيطرة للأعمال السابقة لالتقاط التنوع الكامل للأفعال الواقعية. التحدي كبير. تحتوي الفيديوهات الواقعية على أفعال تتجاوز مجرد التنقل أو التلاعب: أشخاص يدخلون الإطارات، الأشياء تظهر وتختفي، راقصون يتحركون، أصابع تشكل أوتار جيتار. لا يوجد أيضا تجسيد ثابت عبر الفيديوهات، على عكس مجموعات بيانات الروبوتات حيث يظهر نفس الذراع طوال الفيديو. فكيف يتعامل المؤلفون مع هذا؟ تلتقط الأفعال الكامنة المستمرة ولكن المقيدة، باستخدام تنظيم متناثر أو ضوضاء، تعقيد هذا الفعل بشكل فعال. الكمية المتقطعة، النهج الشائع في الأعمال السابقة، تكافح للتكيف. بدون تجسيد مشترك، يتعلم النموذج التحويلات النسبية المكانية والنسبية للكاميرا. تظهر النتائج نقل فعل حقيقي. يمكن تطبيق حركة من شخص يمشي على كرة طائرة. أفعال مثل "شخص يدخل الإطار" تنتقل عبر فيديوهات مختلفة تماما. من خلال تدريب وحدة تحكم صغيرة على ربط الأفعال المعروفة بالأفعال الكامنة، يمكن للنموذج العالمي المدرب فقط على الفيديوهات الطبيعية حل مهام التلاعب والملاحة الروبوتية بأداء قريب من النماذج المدربة على بيانات محددة بالأفعال ومحددة بالأفعال. يمكن أن تكون مساحات العمل الكامنة المستفادة من فيديوهات الإنترنت غير المعنونة واجهة عالمية للتخطيط، مما يزيل عنق الزجاجة في تعليقات الأفعال. الورقة: تعلم كيفية بناء وكلاء الذكاء الاصطناعي الفعالين في أكاديميتنا: