Vau, tekoäly voisi oppia dokumentista lukiessaan sitä? Astera Instituten, NVIDIA:n ja muiden tutkijat esittelevät uuden menetelmän, joka käsittelee pitkän kontekstin mallinnusta jatkuvana oppimisongelmana. He käyttävät tavallista Transformeria, mutta se "tutkii" tekstiä reaaliajassa seuraavan tokenin ennusteen avulla, tiivistäen kontekstin omiin parametreihinsa. Se päihittää mallit kuten Mamba 2 ja Gated DeltaNet skaalaamisessa pitkiin konteksteihin, samalla kun se on 2,7-kertaa nopeampi kuin täysi huomio 128K syötteellä. Koko ajan koeaikainen koulutus pitkälle kontekstille Artikkeli: