Atari 2600 costumava ser o padrão de referência para agentes de IA durante meu doutorado. Uma única rede neural capaz de rodar 50+ jogos da Atari seria considerada impressionante. Os modelos tiveram dificuldade para mapear a tela pixelada em tons de cinza 84x84 para alguns botões. Depois, OpenAI Five (Dota) e AlphaStar da DeepMind elevaram o nível, superando os maiores campeões mundiais de Esports. Ainda assim, eles se adaptam demais a um único ambiente virtual de cada vez. Mudar qualquer coisa quebraria o modelo instantaneamente. Os humanos são extraordinariamente bons em se adaptar a físicas e regras muito diferentes – algo que continua escapando aos nossos LLMs mais avançados, em escala de trilhões. Pense nos 1000 jogos como 1000 simulações. Quanto mais mundos virtuais um agente conseguir se adaptar, melhor ele desenvolve raciocínio incorporado, percepção e coordenação motora. Todas peças críticas do grande quebra-cabeça da robótica. Ao abrir o código do modelo NitroGen e da API da Gym, atendemos ao mesmo objetivo que AlphaGo, AlphaStar, OpenAI Five e, recentemente, Google SIMA: não tirar a diversão desses jogos, mas destacar as limitações da IA moderna, fornecer uma base sólida e criar um novo parâmetro – "Atari 2.0" – para medir o progresso de acordo.