關於代理記憶的精彩論文。 LLM 代理需要長期和短期記憶來處理複雜任務。 然而,當前的默認方法將這些視為獨立的組件,每個組件都有自己的啟發式、控制器和優化策略。 但記憶並不是兩個獨立的系統。它是一個認知過程,決定了什麼要存儲、檢索、總結和遺忘。 這項新研究介紹了 AgeMem,一個統一的框架,通過基於工具的行動將長期和短期記憶管理直接整合到代理的策略中。 代理不再依賴基於觸發的規則或輔助記憶管理器,而是學會了何時以及如何調用記憶操作:ADD、UPDATE、DELETE 用於長期存儲,RETRIEVE、SUMMARY、FILTER 用於上下文管理。 它使用三階段的漸進式強化學習策略。首先,模型學習長期記憶存儲。然後它掌握短期上下文管理。最後,在完整任務設置下協調兩者。 為了處理來自記憶操作的碎片化經驗,他們設計了一個逐步的 GRPO(群體相對策略優化),將跨階段依賴轉化為可學習的信號。 在五個長期基準測試中的結果: > 在 Qwen2.5-7B 上,AgeMem 的平均得分為 41.96,而 Mem0 為 37.14,提升了 13%。 > 在 Qwen3-4B 上,差距擴大:54.31 對 44.70。僅添加長期記憶就提供了 +10-14% 的增益。 > 添加強化學習訓練再增加 +6%。 > 完整的統一系統結合兩種記憶類型,實現了相較於無記憶基準的 +21.7% 的提升。 通過可學習的基於工具的行動進行的統一記憶管理超越了碎片化的啟發式管道,使代理能夠根據任務需求自適應地決定記住和遺忘什麼。 論文: ...