熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
Atari 2600 曾經是我博士期間 AI 代理的黃金基準。一個能夠玩 50 多款 Atari 遊戲的單一神經網絡會被認為是驚人的。這些模型在將 84x84 灰階像素化螢幕映射到幾個按鈕上時遇到了困難。
然後 OpenAI Five(Dota)和 DeepMind 的 AlphaStar 提升了遊戲水平,擊敗了世界頂尖的電子競技冠軍。然而,它們在一次只能適應一個虛擬環境上過度擬合。改變任何東西都會立即破壞模型。
人類在適應截然不同的物理和規則方面非常出色——這是我們最先進的、萬億規模的 LLM 仍然無法做到的。把 1000 款遊戲想像成 1000 個模擬。代理能夠適應的虛擬世界越多,它在具身推理、感知和運動協調方面的發展就越好。這些都是機器人學大拼圖中的關鍵部分。
通過開源 NitroGen 模型和 Gym API,我們的目標與 AlphaGo、AlphaStar、OpenAI Five 以及最近的 Google SIMA 相同:不是要奪走這些遊戲的樂趣,而是要突顯現代 AI 的局限性,提供一個穩固的基準,並創造一個新的基準——"Atari 2.0"——以相應地衡量進展。
熱門
排行
收藏
