Anekdoottien mukaan Claude keräsi vakuutuskorvaustietoni ja laittoi ne taulukkoon. Kesti ~30 minuuttia ilman puuttumista Sitten Claude/Gemini vertailevat etujani. Löysin kaksi paikkaa, joissa minulta on ilmeisesti veloitettu liikaa. Ensimmäinen kerta SWE:n ulkopuolella tuo agentti on tehnyt minulle eron
METR
METR20.12.2025
Arvioimme, että tehtävissämme Claude Opus 4.5:llä on 50 % aikahorisontti noin 4 tuntia 49 minuuttia (95 % luottamusväli 1 tunti 49 minuuttia – 20 tuntia 25 minuuttia). Vaikka työskentelemme vielä muiden viimeaikaisten mallien arvioinneissa, tämä on tähän mennessä korkein julkaistu aikahorisonttimme.
Se on itse asiassa erinomainen tapa käyttää agenttia, koska kaikki tiedot löytyvät suhteellisen helposti verkkosivulta. Mutta on ärsyttävää ja aikaa vievää saada se kulutettavaan muotoon.
Ja etuuksien vertailu on tehokasta, koska sinun, palveluntarjoajan ja vakuutusyhtiön välillä on paljon tiedon epäsymmetriaa. LLM:n toimiminen puolestapuhujana on erinomainen tapa tasoittaa pelikenttää.
868