Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Bài báo tuyệt vời về Ký ức Tác động. Các tác nhân LLM cần cả ký ức dài hạn và ngắn hạn để xử lý các nhiệm vụ phức tạp. Tuy nhiên, cách tiếp cận mặc định ngày nay coi chúng như những thành phần riêng biệt, mỗi thành phần có các quy tắc, bộ điều khiển và chiến lược tối ưu hóa riêng. Nhưng ký ức không phải là hai hệ thống độc lập. Đó là một quá trình nhận thức quyết định những gì cần lưu trữ, truy xuất, tóm tắt và quên. Nghiên cứu mới này giới thiệu AgeMem, một khung thống nhất tích hợp quản lý ký ức dài hạn và ngắn hạn trực tiếp vào chính sách của tác nhân thông qua các hành động dựa trên công cụ. Thay vì dựa vào các quy tắc dựa trên kích hoạt hoặc các trình quản lý ký ức bổ sung, tác nhân học cách và khi nào để thực hiện các thao tác ký ức: ADD, UPDATE, DELETE cho lưu trữ dài hạn, và RETRIEVE, SUMMARY, FILTER cho quản lý ngữ cảnh. Nó sử dụng một chiến lược RL tiến bộ ba giai đoạn. Đầu tiên, mô hình học cách lưu trữ ký ức dài hạn. Sau đó, nó thành thạo quản lý ngữ cảnh ngắn hạn. Cuối cùng, nó phối hợp cả hai trong các cài đặt nhiệm vụ đầy đủ. Để xử lý những trải nghiệm phân mảnh từ các thao tác ký ức, họ thiết kế một GRPO (Tối ưu hóa Chính sách Tương đối Nhóm) theo từng bước, biến các phụ thuộc giữa các giai đoạn thành các tín hiệu có thể học được. Kết quả trên năm tiêu chuẩn dài hạn: > Trên Qwen2.5-7B, AgeMem đạt điểm trung bình 41.96 so với 37.14 cho Mem0, cải thiện 13%. > Trên Qwen3-4B, khoảng cách mở rộng: 54.31 so với 44.70. Việc thêm ký ức dài hạn một mình cung cấp lợi ích +10-14%. > Việc thêm đào tạo RL mang lại thêm +6%. > Hệ thống thống nhất đầy đủ với cả hai loại ký ức đạt được cải thiện lên đến +21.7% so với các tiêu chuẩn không có ký ức. Quản lý ký ức thống nhất thông qua các hành động dựa trên công cụ có thể học được vượt trội hơn các quy trình heuristics phân mảnh, cho phép các tác nhân quyết định một cách thích ứng những gì cần nhớ và quên dựa trên yêu cầu của nhiệm vụ. Bài báo: ...

Hàng đầu

Thứ hạng

Yêu thích