Anekdotisk fikk jeg Claude til å skrape forsikringskravdataene mine i dag og legge det i en tabell. Det tok ~30 minutter uten inngripen Deretter sammenlignes Claude/Gemini med fordelene mine. Fant to steder jeg ser ut til å ha blitt overbelastet. Første gang utenfor SWE at agenter har gjort en forskjell for meg
METR
METR20. des. 2025
We estimate that, on our tasks, Claude Opus 4.5 has a 50%-time horizon of around 4 hrs 49 mins (95% confidence interval of 1 hr 49 mins to 20 hrs 25 mins). While we're still working through evaluations for other recent models, this is our highest published time horizon to date.
Det er faktisk en flott bruk av en agent fordi all informasjonen er relativt lett å finne på en nettside. Men det er irriterende og tidkrevende å få det inn i et forbrukbart format.
Og det er viktig å sjekke fordelene dine fordi det er stor informasjonsasymmetri mellom deg, en leverandør og et forsikringsselskap. Å ha en LLM som talsperson er en flott måte å jevne ut konkurransevilkårene på.
859