Вау, ШІ може вчитися з документа, поки його читає? Дослідники з Інституту Астера, NVIDIA та інших пропонують новий метод, який розглядає моделювання в довгому контексті як задачу безперервного навчання. Вони використовують стандартний трансформер, але він «вивчає» текст у реальному часі через прогнозування наступного токена, стискаючи контекст у власні параметри. Він перевершує такі моделі, як Mamba 2 та Gated DeltaNet, у масштабуванні для довгих контекстів, при цьому у 2,7 раза швидший за повну увагу при 128K входах. Наскрізне навчання під час тестування для довгого контексту Стаття: