Wow, AI kan lära sig från ett dokument medan den läser det? Forskare från Astera Institute, NVIDIA och andra presenterar en ny metod som behandlar långkontextmodellering som ett kontinuerligt inlärningsproblem. De använder en standardtransformer, men den "studerar" texten i realtid via next-token-prediktion, och komprimerar kontexten till sina egna parametrar. Den överträffar modeller som Mamba 2 och Gated DeltaNet när det gäller skalning till långa sammanhang, samtidigt som den är 2,7 gånger snabbare än full uppmärksamhet för 128K-ingångar. Träning i testtid från början till slut för långt sammanhang Papper: