一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

哇，AI可以在閱讀文件的同時學習嗎？來自Astera Institute、NVIDIA等的研究人員提出了一種新方法，將長上下文建模視為一個持續學習問題。他們使用標準的Transformer，但它通過下一個標記預測實時「學習」文本，將上下文壓縮到自己的參數中。在擴展到長上下文方面，它的表現超過了Mamba 2和Gated DeltaNet，同時在128K輸入的情況下比全注意力快2.7倍。長上下文的端到端測試時訓練論文：