De forma anedótica, hoje pedi para o Claude coletar meus dados de sinistros de seguro e colocá-los em uma tabela. Levou ~30 minutos sem intervenção Depois, Claude/Gemini comparam com meus benefícios. Encontrei 2 lugares onde parece que fui cobrado a mais. Primeira vez fora do SWE que agentes fizeram diferença para mim
METR
METR20 de dez. de 2025
Estimamos que, em nossas tarefas, o Claude Opus 4.5 tenha um horizonte de tempo de 50% de cerca de 4 horas e 49 minutos (intervalo de confiança de 95% de 1 hora 49 minutos a 20 horas 25 minutos). Embora ainda estejamos trabalhando em avaliações para outros modelos recentes, este é o nosso maior horizonte de tempo publicado até hoje.
Na verdade, é um ótimo uso de um agente porque todos os dados estão relativamente fáceis de encontrar em uma página web. Mas é irritante e demorado colocar isso em um formato que seja consumível.
E comparar seus benefícios é poderoso porque há uma grande assimetria de informação entre você, um provedor e uma seguradora. Ter um LLM atuando como defensor é uma ótima maneira de nivelar o campo de jogo.
869