Meta及其合作夥伴的新研究。 這是一篇很好的論文,展示了使用適當的世界模型所能實現的可能性。 世界模型需要行動來預測後果。當前的默認方法需要標記的行動數據,這種數據獲取成本高且僅限於狹窄的領域,如視頻遊戲或機器人操作。 但在線上大多數視頻數據根本沒有行動標籤。 這項新研究直接從野外視頻中學習潛在的行動世界模型,超越了以往工作的受控環境,捕捉真實世界行動的全部多樣性。 這個挑戰是相當大的。野外視頻包含的行動遠超簡單的導航或操作:人們進入畫面、物體出現和消失、舞者移動、手指形成吉他和弦。視頻之間也沒有一致的具體化,與機器人數據集不同,後者的同一隻手臂在整個過程中出現。 那麼,作者是如何解決這個問題的呢? 使用稀疏或嘈雜的正則化,持續但受限的潛在行動有效地捕捉了這種行動的複雜性。離散量化,先前工作的常見方法,難以適應。沒有共享的具體化,模型學習到的是空間局部化的、相機相對的變換。 結果展示了真正的行動轉移。 行走者的運動可以應用於飛行的球。像「某人進入畫面」這樣的行動可以在完全不同的視頻之間轉移。 通過訓練一個小型控制器將已知行動映射到潛在行動,純粹基於自然視頻訓練的世界模型可以以接近於基於特定領域、標記行動數據的模型的性能解決機器人操作和導航任務。 從未標記的互聯網視頻中學習的潛在行動空間可以作為規劃的通用接口,消除行動標註的瓶頸。 論文: 在我們的學院學習如何建立有效的AI代理: