Uau, a IA poderia aprender com um documento enquanto o lê? Pesquisadores do Astera Institute, NVIDIA e outros apresentam um novo método que trata a modelagem de contexto longo como um problema de aprendizado contínuo. Eles usam um Transformer padrão, mas ele "estuda" o texto em tempo real por meio da previsão do próximo token, comprimindo o contexto em seus próprios parâmetros. Ele supera modelos como Mamba 2 e Gated DeltaNet em escalabilidade para contextos longos, sendo 2,7 vezes mais rápido que a atenção total para entradas de 128K. Treinamento de Teste de Ponta a Ponta para Contexto Longo Papel: