Vaya, ¿la IA podría aprender de un documento mientras lo lee? Investigadores del Instituto Astera, NVIDIA y otros presentan un nuevo método que trata la modelización de contexto largo como un problema de aprendizaje continuo. Utilizan un Transformer estándar, pero este "estudia" el texto en tiempo real mediante la predicción del siguiente token, comprimiendo el contexto en sus propios parámetros. Supera a modelos como Mamba 2 y Gated DeltaNet en escalado a contextos largos, siendo 2,7 veces más rápido que la atención total para entradas de 128K. Entrenamiento de extremo a extremo en tiempo de prueba para un contexto largo Papel: