Mais uma publicação incrível da Anthropic! É tudo sobre melhorar os seus agentes através de avaliações. Aqui estão as minhas rápidas conclusões do blog: As capacidades que tornam os agentes úteis (autonomia, inteligência, flexibilidade) são as mesmas que dificultam a sua avaliação. Não se pode simplesmente executar testes unitários e esperar que a sua aplicação agente funcione. Este guia detalha a estrutura prática que os desenvolvedores da Anthropic utilizam para avaliações de agentes. Eles mencionaram três tipos de avaliadores, cada um com suas compensações: - Avaliadores baseados em código são rápidos, baratos e reproduzíveis, mas frágeis a variações válidas. - Avaliadores baseados em modelos lidam com nuances e tarefas abertas, mas são não determinísticos e requerem calibração humana. - Avaliadores humanos têm qualidade padrão ouro, mas são caros e lentos. Eles também falam sobre duas categorias de avaliações que servem a diferentes propósitos. 1) Avaliações de capacidade perguntam "o que este agente pode fazer bem?" e começam com baixas taxas de aprovação. 2) Avaliações de regressão perguntam "ele ainda consegue lidar com tarefas anteriores?" e devem permanecer perto de 100%. Tarefas que passam de capacidade para regressão representam progresso real. Para a não determinística, duas métricas são importantes. pass@k mede a probabilidade de pelo menos um sucesso em k tentativas. pass^k mede a probabilidade de que todos os k testes tenham sucesso. Estas divergem dramaticamente, em k=10, pass@k pode se aproximar de 100% enquanto pass^k cai para perto de zero. Uma dica realmente boa nos blogs é começar com 20-50 tarefas simples a partir de falhas reais em vez de esperar pela perfeição. Converta verificações manuais que você já realiza em casos de teste. Avalie saídas, não caminhos tomados. Inclua crédito parcial para tarefas complexas. Erros comuns incluem avaliação rígida que penaliza respostas equivalentes mas formatadas de maneira diferente, especificações de tarefas ambíguas e tarefas estocásticas impossíveis de reproduzir. ...