Mémoire Efficace et Durable pour les Agents LLM Les agents LLM ont besoin de mémoire pour gérer de longues conversations. La manière dont cela est géré aujourd'hui est que la mémoire conserve soit l'historique complet des interactions, ce qui entraîne une énorme redondance, soit s'appuie sur un raisonnement itératif pour filtrer le bruit, consommant ainsi des tokens excessifs. Cette nouvelle recherche introduit SimpleMem, un cadre de mémoire efficace basé sur une compression sémantique sans perte qui maximise la densité d'information tout en minimisant la consommation de tokens. Le cadre fonctionne à travers un pipeline en trois étapes. 1) Tout d'abord, la Compression Sémantique Structurée applique un filtrage conscient de l'entropie pour distiller le dialogue brut en unités de mémoire compactes, résolvant les coréférences et convertissant les expressions temporelles relatives ("vendredi dernier") en horodatages absolus. 2) Deuxièmement, la Consolidation de Mémoire Récursive intègre progressivement des mémoires liées en abstractions de niveau supérieur, transformant des entrées répétitives comme "a commandé un latte à 8h" en motifs comme "boit régulièrement du café le matin." 3) Troisièmement, la Récupération Adaptative Sensible à la Requête ajuste dynamiquement la portée de récupération en fonction de la complexité de la requête. Les résultats : Sur le benchmark LoCoMo avec GPT-4.1-mini, SimpleMem atteint 43.24 F1, surpassant la meilleure référence Mem0 (34.20) de 26.4%, tout en réduisant la consommation de tokens à seulement 531 tokens par requête comparé à 16,910 pour les approches à contexte complet, soit une réduction de 30x. Ils affirment que la construction de mémoire est 14x plus rapide que Mem0 (92.6s contre 1350.9s par échantillon) et 50x plus rapide que A-Mem. Même un modèle de 3B paramètres avec SimpleMem surpasse des modèles plus grands utilisant des stratégies de mémoire inférieures. Ce travail montre que la compression sémantique structurée et la récupération adaptative permettent aux agents LLM de maintenir une mémoire à long terme fiable sans se noyer dans les tokens ou sacrifier la précision.