Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Вау, ШІ може вчитися з документа, поки його читає?
Дослідники з Інституту Астера, NVIDIA та інших пропонують новий метод, який розглядає моделювання в довгому контексті як задачу безперервного навчання.
Вони використовують стандартний трансформер, але він «вивчає» текст у реальному часі через прогнозування наступного токена, стискаючи контекст у власні параметри.
Він перевершує такі моделі, як Mamba 2 та Gated DeltaNet, у масштабуванні для довгих контекстів, при цьому у 2,7 раза швидший за повну увагу при 128K входах.
Наскрізне навчання під час тестування для довгого контексту
Стаття:

Найкращі
Рейтинг
Вибране
