L'Atari 2600 era il benchmark d'oro per gli agenti AI durante il mio dottorato. Una singola rete neurale in grado di giocare a oltre 50 giochi Atari sarebbe stata considerata straordinaria. I modelli faticavano a mappare uno schermo in scala di grigi pixelato 84x84 su pochi pulsanti. Poi OpenAI Five (Dota) e AlphaStar di DeepMind hanno alzato il livello, battendo i migliori campioni del mondo negli Esports. Eppure si adattavano eccessivamente a un singolo ambiente virtuale alla volta. Cambiare qualcosa avrebbe rotto il modello all'istante. Gli esseri umani sono straordinariamente bravi ad adattarsi a fisiche e regole molto diverse - qualcosa che continua a sfuggire ai nostri LLM più avanzati, su scala trilionaria. Pensa ai 1000 giochi come a 1000 simulazioni. Più mondi virtuali un agente può adattarsi, meglio sviluppa il ragionamento incarnato, la percezione e il coordinamento motorio. Tutti pezzi critici nel grande puzzle della robotica. Aprendo il modello NitroGen e l'API Gym, perseguiamo lo stesso obiettivo di AlphaGo, AlphaStar, OpenAI Five e recentemente Google SIMA: non per togliere il divertimento da quei giochi, ma per evidenziare le limitazioni dell'AI moderna, fornire una solida base e creare un nuovo benchmark - "Atari 2.0" - per misurare i progressi di conseguenza.