Enda et fantastisk innlegg fra Anthropic! Det handler om å forbedre agentene dine gjennom evalueringer. Her er mine raske innsikter fra bloggen: Evnene som gjør agenter nyttige (autonomi, intelligens, fleksibilitet) er de samme som gjør dem vanskelige å evaluere. Du kan ikke bare kjøre enhetstester og forvente at agentic-appen din skal fungere. Denne guiden forklarer det praktiske rammeverket Anthropic-utviklere bruker for agentvurderinger. De nevnte tre typer vurderere, hver med sine avveininger: - Kodebaserte grader er raske, billige og reproduserbare, men sprø til gyldige varianter. - Modellbaserte vurderere håndterer nyanser og åpne oppgaver, men er ikke-deterministiske og krever menneskelig kalibrering. - Menneskegrader er av gullstandardkvalitet, men dyre og trege. De snakker også om to kategorier evalueringer som tjener ulike formål. 1) Evnevurderinger spør «hva kan denne agenten gjøre?» og starter med lave beståttprosenter. 2) Regresjonsvurderinger spør «kan den fortsatt håndtere tidligere oppgaver?» og bør holde seg nær 100%. Oppgaver som går fra evne til regresjon representerer reell fremgang. For ikke-determinisme er to måleparametere viktige. pass@k måler sannsynligheten for minst én suksess i k forsøk. pass^k måler sannsynligheten for at alle k forsøk lykkes. Disse divergerer dramatisk, ved k=10, kan pass@k nærme seg 100 % mens pass^k faller nær null. Et veldig godt tips i bloggene er å starte med 20-50 enkle oppgaver fra ekte feil i stedet for å vente på perfeksjon. Konverter manuelle kontroller du allerede utfører til testtilfeller. Karakterresultater, ikke veier som er valgt. Inkluder delvis poeng for komplekse oppgaver. Vanlige fallgruver inkluderer rigid vurdering som straffer tilsvarende men annerledes formaterte svar, tvetydige oppgavespesifikasjoner og stokastiske oppgaver som er umulige å gjenskape. ...