哇,AI可以在閱讀文件的同時學習嗎? 來自Astera Institute、NVIDIA等的研究人員提出了一種新方法,將長上下文建模視為一個持續學習問題。 他們使用標準的Transformer,但它通過下一個標記預測實時「學習」文本,將上下文壓縮到自己的參數中。 在擴展到長上下文方面,它的表現超過了Mamba 2和Gated DeltaNet,同時在128K輸入的情況下比全注意力快2.7倍。 長上下文的端到端測試時訓練 論文: