Anecdotic în ziua de azi, l-am rugat pe Claude să extragă datele mele de despăgubire de asigurare și să le pună într-un tabel. A durat ~30 de minute fără intervenție Apoi Claude/Gemini compară cu beneficiile mele. Am găsit 2 locuri unde se pare că am fost suprataxat. Prima oară în afara SWE când agenții au făcut o diferență pentru mine
METR
METR20 dec. 2025
Estimăm că, la sarcinile noastre, Claude Opus 4.5 are un orizont de timp de 50% de aproximativ 4 ore 49 minute (interval de încredere 95% de 1 oră 49 minute până la 20 ore 25 minute). Deși încă lucrăm la evaluări pentru alte modele recente, acesta este cel mai înalt orizont de timp publicat până acum.
De fapt, este o utilizare excelentă a unui agent pentru că toate datele sunt relativ ușor de găsit pe o pagină web. Dar este enervant și consumator de timp să-l aduci într-un format care să poată fi consumat.
Iar verificarea beneficiilor tale este puternică pentru că există o mare asimetrie informațională între tine, un furnizor și o companie de asigurări. Faptul că un LLM acționează ca avocat este o modalitate excelentă de a echilibra șansele.
864