Mọi người đều tập trung vào ai sẽ trình diễn bản demo hình người ấn tượng nhất. Jim Fan vừa cho bạn biết cuộc đua thực sự: ai có thể tạo ra đủ dữ liệu vật lý tổng hợp để lấp đầy khoảng trống 100.000 năm. Con số đó không phải là phóng đại. Ken Goldberg tại Berkeley đã tính toán rằng dữ liệu văn bản được sử dụng để đào tạo LLM sẽ mất 100.000 năm cho một con người đọc. Robot gần như không có quyền truy cập vào bất kỳ dữ liệu tương đương nào cho việc thao tác vật lý. Mỗi lần nắm, mỗi lần vấp, mỗi lần thay đổi trọng lượng đều cần phải được học từ đầu hoặc mô phỏng. Đó là lý do tại sao phòng thí nghiệm của Fan phát hành ba phiên bản mô hình trong chín tháng (N1 vào tháng Ba, N1.5 vào tháng Sáu, N1.6 vào tháng Mười Hai) trong khi hầu hết các công ty robot vẫn đang thu thập các bản demo thực tế. NVIDIA không chỉ cạnh tranh về phần cứng. Họ đang cạnh tranh về khả năng tạo ra dữ liệu đào tạo tổng hợp không giới hạn thông qua Omniverse. Ngăn xếp GR00T tiết lộ chiến lược: GR00T Dreams tạo ra dữ liệu video tổng hợp. GR00T-Gen tạo ra môi trường mô phỏng. GR00T-Mimic tạo ra các quỹ đạo. Mỗi thành phần tồn tại để sản xuất dữ liệu vật lý không có trên internet. Khung “Bài kiểm tra Turing Vật lý” của Fan rất chính xác. Chúng tôi sẽ xây dựng các hệ thống có thể lý luận về protein và chứng minh các định lý trước khi xây dựng các hệ thống có thể gấp quần áo một cách đáng tin cậy. Physical Intelligence vừa chứng minh điều này vào tuần trước khi họ giải quyết các nhiệm vụ thách thức “Thế vận hội Robot” của Benjie Holson. Mô hình của họ đã giành huy chương vàng trong 3/5 hạng mục. Nhưng hãy chú ý đến những gì họ không thể giải quyết: các nhiệm vụ yêu cầu sử dụng công cụ với các thuộc tính vật lý cụ thể. Ranh giới không phải là lý luận. Đó là động lực tiếp xúc. OpenAI và Anthropic mở rộng bằng cách thu thập dữ liệu từ internet. AI Vật lý không có internet để thu thập. Đội nào thắng là đội tìm ra cách sản xuất 100 triệu giờ kinh nghiệm vật lý trong mô phỏng và chuyển nó vào thế giới thực. NVIDIA với DNA đồ họa, cơ sở hạ tầng mô phỏng và đội ngũ 30 người đang mở mã hệ thống cơ bản một cách có hệ thống có thể được định vị tốt hơn bất kỳ ai để làm chính xác điều đó.