根據我的經驗,昨天我讓Claude抓取我的保險索賠數據並將其放入表格中。大約花了30分鐘,沒有任何干預。 然後Claude/Gemini將其與我的福利進行比較。發現有兩個地方我似乎被多收了費用。 這是我在SWE之外第一次看到代理人對我有所幫助。
METR
METR2025年12月20日
我們估計,在我們的任務中,Claude Opus 4.5 的 50% 時間範圍約為 4 小時 49 分鐘(95% 置信區間為 1 小時 49 分鐘到 20 小時 25 分鐘)。雖然我們仍在對其他最近的模型進行評估,但這是我們迄今為止發佈的最高時間範圍。
這實際上是一個很好的代理使用方式,因為所有數據都相對容易在網頁上找到。但將其轉換為可消耗的格式是令人厭煩且耗時的。
檢查您的福利是非常重要的,因為您、提供者和保險公司之間存在著大量的信息不對稱。讓大型語言模型(LLM)充當倡導者是一種平衡競爭環境的好方法。
886