Wow, AI könnte aus einem Dokument lernen, während es es liest? Forscher vom Astera Institute, NVIDIA und anderen präsentieren eine neue Methode, die das Long-Context-Modeling als ein kontinuierliches Lernproblem behandelt. Sie verwenden einen Standard-Transformer, der den Text in Echtzeit über die Vorhersage des nächsten Tokens "studiert" und den Kontext in seine eigenen Parameter komprimiert. Er übertrifft Modelle wie Mamba 2 und Gated DeltaNet in der Skalierung auf lange Kontexte und ist dabei 2,7-mal schneller als die vollständige Aufmerksamkeit für 128K Eingaben. End-to-End Test-Time Training für langen Kontext Papier: