Efektywna pamięć przez całe życie dla agentów LLM Agenci LLM potrzebują pamięci, aby radzić sobie z długimi rozmowami. Sposób, w jaki jest to obecnie realizowane, polega na tym, że pamięć albo przechowuje pełne historie interakcji, co prowadzi do ogromnej redundancji, albo polega na iteracyjnym rozumowaniu w celu filtrowania szumów, co zużywa nadmierną liczbę tokenów. Niniejsze badania wprowadzają SimpleMem, efektywną ramę pamięci opartą na semantycznej kompresji bezstratnej, która maksymalizuje gęstość informacji przy minimalizacji zużycia tokenów. Rama działa w trzech etapach. 1) Po pierwsze, semantyczna kompresja strukturalna stosuje filtrowanie uwzględniające entropię, aby destylować surowy dialog w kompaktowe jednostki pamięci, rozwiązując odniesienia i przekształcając wyrażenia czasowe ("w zeszły piątek") w absolutne znaczniki czasowe. 2) Po drugie, konsolidacja pamięci rekurencyjnej stopniowo integruje powiązane wspomnienia w wyższe abstrakcje, przekształcając powtarzające się wpisy, takie jak "zamówiłem latte o 8 rano", w wzorce, takie jak "regularnie pije kawę rano." 3) Po trzecie, adaptacyjne pobieranie świadome zapytań dynamicznie dostosowuje zakres pobierania w zależności od złożoności zapytania. Wyniki: W benchmarku LoCoMo z GPT-4.1-mini, SimpleMem osiąga 43.24 F1, przewyższając najsilniejszą bazę Mem0 (34.20) o 26.4%, przy jednoczesnym zmniejszeniu zużycia tokenów do zaledwie 531 tokenów na zapytanie w porównaniu do 16,910 dla podejść pełno-kontekstowych, co stanowi redukcję o 30x. Twierdzą, że konstrukcja pamięci jest 14x szybsza niż Mem0 (92.6s vs 1350.9s na próbkę) i 50x szybsza niż A-Mem. Nawet model z 3 miliardami parametrów z SimpleMem przewyższa większe modele korzystające z gorszych strategii pamięci. Ta praca pokazuje, że strukturalna kompresja semantyczna i adaptacyjne pobieranie umożliwiają agentom LLM utrzymanie niezawodnej pamięci długoterminowej bez tonienia w tokenach lub poświęcania dokładności.