Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Чудова стаття про агентну пам'ять.
Агенти LLM потребують як довгострокової та короткострокової пам'яті, щоб виконувати складні завдання.
Однак сьогодні стандартний підхід розглядає їх як окремі компоненти, кожен зі своїми евристиками, контролерами та стратегіями оптимізації.
Але пам'ять — це не дві незалежні системи. Це один із когнітивних процесів, який вирішує, що зберігати, отримувати, підсумовувати і забувати.
Це нове дослідження представляє AgeMem — уніфіковану структуру, яка інтегрує управління довгостроковою та короткостроковою пам'яттю безпосередньо в політику агента через дії на основі інструментів.
Замість того, щоб покладатися на тригерні правила або допоміжні менеджери пам'яті, агент вчиться, коли і як викликати операції пам'яті: ADD, UPDATE, DELETE для довготривалого зберігання та RETRIEVE, SUMMARIZE, FILTER для управління контекстом.
Вона використовує трьохетапну прогресивну стратегію RL. По-перше, модель навчається довготривалому зберіганню пам'яті. Потім вона опановує короткострокове управління контекстом. Нарешті, він координує обидва параметри у повних налаштуваннях завдань.
Для роботи з фрагментованим досвідом операцій пам'яті вони розробляють покроковий GRPO (Group Relative Policy Optimization), який перетворює крос-етапні залежності на сигнали, що можна навчитися.
Результати за п'ятьма довгостроковими бенчмарками:
> На Qwen2.5-7B AgeMem отримує середній бал 41.96 проти 37.14 у Mem0, що на 13% покращення.
> На Qwen3-4B розрив збільшується: 54.31 проти 44.70. Додавання довготривалої пам'яті лише дає +10-14% приросту.
> Додавання тренування RL додає ще +6%.
> Повна уніфікована система з обома типами пам'яті досягає покращення до +21,7% порівняно з базовими лініями без пам'яті.
Уніфіковане управління пам'яттю через навчальні дії на основі інструментів перевершує фрагментовані евристичні конвеєри, дозволяючи агентам адаптивно вирішувати, що запам'ятати, а що забувати залежно від вимог завдання.
Стаття:
...

Найкращі
Рейтинг
Вибране
