Nova pesquisa da Meta e colaboradores. Este é um bom artigo mostrando o que é possível com modelos mundiais adequados. Modelos mundiais precisam de ações para prever consequências. A abordagem padrão hoje exige dados de ação rotulados, que são caros de obter e limitados a domínios restritos como videogames ou manipulação robótica. Mas a grande maioria dos dados de vídeo online não tem nenhum rótulo de ação. Esta nova pesquisa aborda o aprendizado de modelos de mundos de ação latentes diretamente a partir de vídeos na natureza, expandindo além dos ambientes controlados de trabalhos anteriores para capturar toda a diversidade de ações do mundo real. O desafio é significativo. Vídeos in-the-wild contêm ações muito além da simples navegação ou manipulação: pessoas entrando nos quadros, objetos aparecendo e desaparecendo, dançarinos se movendo, dedos formando acordes de guitarra. Também não há uma incorporação consistente entre vídeos, diferente dos conjuntos de dados de robótica, onde o mesmo braço aparece em todo o vídeo. Então, como os autores abordam isso? Ações latentes contínuas, porém restritas, usando regularização esparsa ou ruidosa, capturam efetivamente essa complexidade de ação. A quantização discreta, a abordagem comum em trabalhos anteriores, tem dificuldades para se adaptar. Sem uma incorporação compartilhada, o modelo aprende transformações espacialmente localizadas, relativas à câmera. Os resultados demonstram uma transferência genuína de ação. O movimento de uma pessoa andando pode ser aplicado a uma bola voadora. Ações como "alguém entrando no quadro" são transferidas entre vídeos completamente diferentes. Ao treinar um pequeno controlador para mapear ações conhecidas para latentes, o modelo mundial treinado puramente em vídeos naturais pode resolver tarefas de manipulação robótica e navegação com desempenho próximo ao de modelos treinados em dados específicos de domínio e rotulados por ação. Espaços de ação latentes aprendidos a partir de vídeos da internet sem rótulo podem servir como uma interface universal para planejamento, removendo o gargalo da anotação de ações. Papel: Aprenda a construir agentes de IA eficazes em nossa academia: