わあ、AIが文書を読みながら学習できるのですか? Astera Institute、NVIDIAなどの研究者たちは、長い文脈モデリングを継続的な学習問題として扱う新しい手法を提示しています。 標準的なトランスフォーマーを使っていますが、次のトークン予測を通じてテキストをリアルタイムで「研究」し、コンテキストを独自のパラメータに圧縮します。 長コンテキストへのスケーリングにおいてMamba 2やGated DeltaNetのようなモデルを上回り、128K入力に対してフルアテンションの2.7倍の速度を誇ります。 長期コンテキストのためのエンドツーエンドテストタイムトレーニング 論文: