Nghe nói hôm qua tôi đã cho Claude thu thập dữ liệu yêu cầu bảo hiểm của tôi và đưa vào một bảng. Mất khoảng 30 phút mà không cần can thiệp Sau đó Claude/Gemini so sánh với các quyền lợi của tôi. Phát hiện 2 nơi mà tôi có vẻ đã bị tính phí quá mức. Lần đầu tiên ngoài SWE mà các đại lý đã tạo ra sự khác biệt cho tôi
METR
METR20 thg 12, 2025
Chúng tôi ước tính rằng, đối với các nhiệm vụ của chúng tôi, Claude Opus 4.5 có khoảng thời gian 50% là khoảng 4 giờ 49 phút (khoảng tin cậy 95% từ 1 giờ 49 phút đến 20 giờ 25 phút). Trong khi chúng tôi vẫn đang làm việc để đánh giá các mô hình gần đây khác, đây là khoảng thời gian công bố cao nhất của chúng tôi cho đến nay.
Thực ra, đây là một cách sử dụng đại lý tuyệt vời vì dữ liệu đều có sẵn và tương đối dễ tìm trên một trang web. Nhưng thật phiền phức và tốn thời gian để đưa nó vào định dạng có thể sử dụng.
Và việc kiểm tra các quyền lợi của bạn là rất mạnh mẽ vì có một lượng lớn thông tin không đối xứng giữa bạn, một nhà cung cấp, và một công ty bảo hiểm. Việc có một LLM đóng vai trò là người bảo vệ là một cách tuyệt vời để cân bằng sân chơi.
857