Meta及其合作伙伴的新研究。 这是一篇很好的论文,展示了在适当的世界模型下可以实现的可能性。 世界模型需要行动来预测后果。如今的默认方法需要标记的行动数据,这种数据获取成本高且仅限于视频游戏或机器人操作等狭窄领域。 但在线上绝大多数视频根本没有行动标签。 这项新研究直接从野外视频中学习潜在的行动世界模型,超越了以往工作的受控环境,以捕捉现实世界行动的全部多样性。 这个挑战是巨大的。野外视频包含的行动远远超出了简单的导航或操作:人们进入画面,物体出现和消失,舞者移动,手指形成吉他和弦。视频之间也没有一致的体现,这与机器人数据集不同,后者的同一只手臂在整个过程中都出现。 那么,作者是如何解决这个问题的呢? 使用稀疏或嘈杂的正则化,连续但受限的潜在行动有效地捕捉了这种行动复杂性。离散量化,之前工作的常见方法,难以适应。没有共享的体现,模型学习到的是空间局部化的、相机相对的变换。 结果展示了真正的行动转移。 一个行走者的运动可以应用于一只飞翔的球。像“某人进入画面”这样的行动可以在完全不同的视频之间转移。 通过训练一个小型控制器将已知行动映射到潜在行动,纯粹基于自然视频训练的世界模型可以以接近于在特定领域、标记行动数据上训练的模型的性能解决机器人操作和导航任务。 从未标记的互联网视频中学习的潜在行动空间可以作为规划的通用接口,消除行动注释的瓶颈。 论文: 在我们的学院学习如何构建有效的AI代理: