Ieri, aneddoticamente, ho fatto fare a Claude un'analisi dei miei dati sulle richieste di risarcimento assicurativo e li ha messi in una tabella. Ci sono voluti circa 30 minuti senza intervento. Poi Claude/Gemini ha confrontato con i miei benefici. Ha trovato 2 posti in cui sembra che mi abbiano addebitato troppo. È la prima volta al di fuori della SWE che gli agenti hanno fatto la differenza per me.
METR
METR20 dic 2025
Stimiamo che, per i nostri compiti, Claude Opus 4.5 abbia un orizzonte temporale del 50% di circa 4 ore e 49 minuti (intervallo di confidenza del 95% di 1 ora e 49 minuti a 20 ore e 25 minuti). Anche se stiamo ancora lavorando alle valutazioni di altri modelli recenti, questo è il nostro orizzonte temporale pubblicato più alto fino ad oggi.
In realtà è un ottimo utilizzo di un agente perché i dati sono tutti lì, relativamente facili da trovare su una pagina web. Ma è fastidioso e richiede tempo per metterli in un formato che sia fruibile.
E controllare i tuoi benefici è potente perché c'è una grande asimmetria informativa tra te, un fornitore, e una compagnia assicurativa. Avere un LLM che agisca come un avvocato è un ottimo modo per livellare il campo di gioco.
862