Ajanik Hafıza üzerine harika bir makale. LLM ajanlarının karmaşık görevleri yönetmek için hem uzun hem de kısa vadeli hafızaya ihtiyacı vardır. Ancak günümüzde varsayılan yaklaşım bunları ayrı bileşenler olarak ele alıyor ve her biri kendi sezgisel sistemleri, kontrolcüleri ve optimizasyon stratejileri sunuyor. Ama hafıza iki bağımsız sistem değildir. Neyin saklanacağına, geri alınacağına ve neyin özetleyeceğine ve unutulacağına karar veren tek bilişsel süreçtir. Bu yeni araştırma, uzun ve kısa vadeli bellek yönetimini aracı tabanlı eylemlerle doğrudan ajanın politikasına entegre eden birleşik bir çerçeve olan AgeMem'i tanıtıyor. Tetikleyici tabanlı kurallara veya yardımcı bellek yöneticilerine güvenmek yerine, ajan bellek işlemlerini ne zaman ve nasıl çağıracağını öğrenir: uzun süreli depolama için ADD, UPDATE, DELETE ve bağlam yönetimi için RETRIEVE, SUMMARY, FILTER işlemlerini ne zaman ve nasıl çağıracak. Üç aşamalı ilerici bir RL stratejisi kullanır. İlk olarak, model uzun süreli hafıza depolamasını öğrenir. Sonra kısa vadeli bağlam yönetiminde ustalaşıyor. Son olarak, her ikisini de tam görev ayarları altında koordine eder. Bellek işlemlerinden kaynaklanan parçalanmış deneyimleri yönetmek için, aşamalar arası bağımlılıkları öğrenilebilir sinyallere dönüştüren adım adım bir GRPO (Grup Göreli Politika Optimizasyonu) tasarlarlar. Beş uzun vadeli kıyar alanındaki sonuçlar: > Qwen2.5-7B'de AgeMem ortalama 41.96 puana ulaşırken, Mem0 için %37.14 ile %13 artış anlamına geliyor. > Qwen3-4B'de fark artar: 54.31'e karşı 44.70. Sadece uzun süreli bellek eklemek bile +%10-14 kazanç sağlar. > Gerçek Doğa Eğitimi eklemek +%6 daha ekliyor. > Her iki bellek tipine sahip tam birleşik sistem, hafıza olmayan bazlara göre +%21,7'ye kadar iyileştirme sağlar. Öğrenilebilir araç tabanlı eylemlerle birleşik bellek yönetimi, parçalanmış sezgisel boru hatlarını geride bırakır ve ajanların görev taleplerine göre neyi hatırlayıp neyi unutmayacağına uyarlanabilir şekilde karar vermesini sağlar. Makale: ...