El Atari 2600 solía ser el referente de oro para agentes de IA durante mi etapa de doctorado. Una sola red neuronal capaz de reproducir 50+ juegos de Atari sería considerada alucinante. Los modelos tuvieron dificultades para asignar una pantalla pixelada en escala de grises 84x84 a unos pocos botones. Después, OpenAI Five (Dota) y AlphaStar de DeepMind mejoraron el nivel, superando a los principales campeones mundiales de Esports. Sin embargo, se adaptan demasiado a un solo entorno virtual a la vez. Cambiar cualquier cosa rompería el modelo al instante. Los humanos somos extraordinariamente buenos adaptándose a físicas y reglas muy diferentes, algo que sigue eludiendo nuestros LLMs más avanzados a escala de billones. Piensa en los 1000 juegos como 1000 simulaciones. Cuantos más mundos virtuales pueda adaptarse un agente, mejor desarrollará razonamiento corporal, percepción y coordinación motora. Todas piezas críticas en el gran rompecabezas de la robótica. Al abrir el modelo NitroGen y la API de Gym, cumplimos el mismo objetivo que AlphaGo, AlphaStar, OpenAI Five y, recientemente, Google SIMA: no quitarles diversión a esos juegos, sino destacar las limitaciones de la IA moderna, proporcionar una base sólida y crear un nuevo punto de referencia —"Atari 2.0"— para medir el progreso en consecuencia.