Wow, l'IA pourrait apprendre d'un document pendant qu'elle le lit ? Des chercheurs de l'Astera Institute, de NVIDIA et d'autres présentent une nouvelle méthode qui traite la modélisation à long contexte comme un problème d'apprentissage continu. Ils utilisent un Transformer standard, mais il "étudie" le texte en temps réel via la prédiction du prochain token, compressant le contexte dans ses propres paramètres. Il surpasse des modèles comme Mamba 2 et Gated DeltaNet en s'adaptant à de longs contextes, tout en étant 2,7 fois plus rapide que l'attention complète pour des entrées de 128K. Entraînement de Test-Time de bout en bout pour un long contexte Document :