¿Wow, la IA podría aprender de un documento mientras lo lee? Investigadores del Astera Institute, NVIDIA y otros presentan un nuevo método que trata el modelado de largo contexto como un problema de aprendizaje continuo. Utilizan un Transformer estándar, pero "estudia" el texto en tiempo real a través de la predicción del siguiente token, comprimiendo el contexto en sus propios parámetros. Supera a modelos como Mamba 2 y Gated DeltaNet en la escalabilidad a contextos largos, mientras es 2.7 veces más rápido que la atención completa para entradas de 128K. Entrenamiento de Prueba de Fin a Fin para Largo Contexto Documento: