每个人都专注于谁能展示最炫目的类人演示。吉姆·范刚刚告诉你实际的竞争:谁能生成足够的合成物理数据来弥补10万年的差距。 这个数字并不是夸张。加州大学伯克利分校的肯·戈德堡计算出,用于训练大型语言模型的文本数据,人工阅读需要10万年。机器人几乎没有任何等同于此的物理操作数据。每一个抓取、每一次绊倒、每一次重量转移都需要从头学习或模拟。 这就是为什么范的实验室在九个月内发布了三个模型版本(N1在三月,N1.5在六月,N1.6在十二月),而大多数机器人公司仍在收集真实世界的演示。NVIDIA并不仅仅在硬件上竞争。他们在通过Omniverse生成无限合成训练数据的能力上竞争。 GR00T堆栈揭示了这一策略:GR00T Dreams生成合成视频数据。GR00T-Gen创建模拟环境。GR00T-Mimic生成轨迹。每个组件的存在都是为了制造互联网上不存在的物理数据。 范的“物理图灵测试”框架非常准确。我们将在构建能够推理蛋白质和证明定理的系统之前,构建能够可靠折叠衣物的系统。物理智能上周刚刚展示了这一点,当他们应对本杰·霍尔森的“机器人奥林匹克”挑战任务时。他们的模型在5个类别中获得了3枚金牌。但请注意他们无法解决的任务:需要特定物理属性的工具使用任务。前沿不是推理,而是接触动力学。 OpenAI和Anthropic通过抓取互联网进行扩展。物理AI没有互联网可供抓取。获胜的团队是那些能够在模拟中制造1亿小时物理经验并将其转移到现实世界的人。 NVIDIA凭借其图形DNA、模拟基础设施和30人的团队,系统性地开源基础模型,可能比任何人都更好地定位于做到这一点。