Excellent article sur la mémoire agentique. Les agents LLM ont besoin à la fois de mémoire à long terme et de mémoire à court terme pour gérer des tâches complexes. Cependant, l'approche par défaut aujourd'hui considère ces mémoires comme des composants séparés, chacun avec ses propres heuristiques, contrôleurs et stratégies d'optimisation. Mais la mémoire n'est pas deux systèmes indépendants. C'est un processus cognitif unique qui décide quoi stocker, récupérer, résumer et oublier. Cette nouvelle recherche introduit AgeMem, un cadre unifié qui intègre la gestion de la mémoire à long terme et à court terme directement dans la politique de l'agent à travers des actions basées sur des outils. Au lieu de s'appuyer sur des règles basées sur des déclencheurs ou des gestionnaires de mémoire auxiliaires, l'agent apprend quand et comment invoquer des opérations de mémoire : ADD, UPDATE, DELETE pour le stockage à long terme, et RETRIEVE, SUMMARY, FILTER pour la gestion du contexte. Il utilise une stratégie RL progressive en trois étapes. D'abord, le modèle apprend le stockage de mémoire à long terme. Ensuite, il maîtrise la gestion du contexte à court terme. Enfin, il coordonne les deux dans des paramètres de tâche complets. Pour gérer les expériences fragmentées provenant des opérations de mémoire, ils conçoivent un GRPO (Group Relative Policy Optimization) étape par étape qui transforme les dépendances inter-étapes en signaux apprenables. Les résultats sur cinq benchmarks à long terme : > Sur Qwen2.5-7B, AgeMem atteint un score moyen de 41.96 contre 37.14 pour Mem0, soit une amélioration de 13%. > Sur Qwen3-4B, l'écart se creuse : 54.31 contre 44.70. L'ajout de la mémoire à long terme seule fournit des gains de +10-14%. > L'ajout de l'entraînement RL ajoute encore +6%. > Le système unifié complet avec les deux types de mémoire atteint jusqu'à +21.7% d'amélioration par rapport aux références sans mémoire. La gestion unifiée de la mémoire à travers des actions basées sur des outils apprenables surpasse les pipelines heuristiques fragmentés, permettant aux agents de décider de manière adaptative quoi se souvenir et quoi oublier en fonction des exigences de la tâche. Article : ...