Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Отличная работа о агентной памяти.
Агенты LLM нуждаются как в долгосрочной, так и в краткосрочной памяти для выполнения сложных задач.
Однако текущий подход по умолчанию рассматривает их как отдельные компоненты, каждый из которых имеет свои собственные эвристики, контроллеры и стратегии оптимизации.
Но память не является двумя независимыми системами. Это один когнитивный процесс, который решает, что хранить, извлекать, обобщать и забывать.
Это новое исследование представляет AgeMem, унифицированную структуру, которая интегрирует управление долгосрочной и краткосрочной памятью непосредственно в политику агента через действия на основе инструментов.
Вместо того чтобы полагаться на правила, основанные на триггерах, или вспомогательные менеджеры памяти, агент учится, когда и как вызывать операции памяти: ADD, UPDATE, DELETE для долгосрочного хранения и RETRIEVE, SUMMARY, FILTER для управления контекстом.
Он использует трехступенчатую прогрессивную стратегию RL. Сначала модель учится хранить долгосрочную память. Затем она осваивает управление краткосрочным контекстом. Наконец, она координирует оба аспекта в условиях полной задачи.
Чтобы справиться с фрагментированными опытами от операций памяти, они разрабатывают пошаговую GRPO (Групповая Относительная Оптимизация Политики), которая преобразует зависимости между этапами в обучаемые сигналы.
Результаты по пяти долгосрочным бенчмаркам:
> На Qwen2.5-7B AgeMem достигает 41.96 в среднем, по сравнению с 37.14 для Mem0, что составляет 13% улучшение.
> На Qwen3-4B разрыв увеличивается: 54.31 против 44.70. Добавление только долгосрочной памяти дает прирост +10-14%.
> Добавление обучения RL добавляет еще +6%.
> Полная унифицированная система с обоими типами памяти достигает до +21.7% улучшения по сравнению с базовыми линиями без памяти.
Унифицированное управление памятью через обучаемые действия на основе инструментов превосходит фрагментированные эвристические конвейеры, позволяя агентам адаптивно решать, что запоминать и забывать в зависимости от требований задачи.
Статья:
...

Топ
Рейтинг
Избранное
