Nouvelles recherches de Meta et de ses collaborateurs. C'est un bon article montrant ce qui est possible avec des modèles du monde appropriés. Les modèles du monde ont besoin d'actions pour prédire les conséquences. L'approche par défaut aujourd'hui nécessite des données d'action étiquetées, ce qui est coûteux à obtenir et limité à des domaines étroits comme les jeux vidéo ou la manipulation robotique. Mais la grande majorité des données vidéo en ligne n'a pas d'étiquettes d'action du tout. Cette nouvelle recherche s'attaque à l'apprentissage de modèles du monde d'action latente directement à partir de vidéos en milieu naturel, s'étendant au-delà des environnements contrôlés des travaux précédents pour capturer la pleine diversité des actions du monde réel. Le défi est significatif. Les vidéos en milieu naturel contiennent des actions bien au-delà de la simple navigation ou manipulation : des personnes entrant dans les cadres, des objets apparaissant et disparaissant, des danseurs se déplaçant, des doigts formant des accords de guitare. Il n'y a également pas d'incarnation cohérente à travers les vidéos, contrairement aux ensembles de données robotiques, où le même bras apparaît tout au long. Alors, comment les auteurs abordent-ils cela ? Des actions latentes continues mais contraintes, utilisant une régularisation sparse ou bruyante, capturent efficacement cette complexité d'action. La quantification discrète, l'approche courante dans les travaux antérieurs, peine à s'adapter. Sans une incarnation partagée, le modèle apprend des transformations spatialement localisées et relatives à la caméra. Les résultats démontrent un véritable transfert d'action. Le mouvement d'une personne marchant peut être appliqué à une balle volante. Des actions comme "quelqu'un entrant dans le cadre" se transfèrent à travers des vidéos complètement différentes. En entraînant un petit contrôleur pour mapper des actions connues à des actions latentes, le modèle du monde entraîné uniquement sur des vidéos naturelles peut résoudre des tâches de manipulation et de navigation robotique avec des performances proches de celles des modèles entraînés sur des données étiquetées par action spécifiques au domaine. Les espaces d'action latente appris à partir de vidéos internet non étiquetées peuvent servir d'interface universelle pour la planification, supprimant le goulot d'étranglement de l'annotation d'action. Article : Apprenez à construire des agents IA efficaces dans notre académie :