Kolejny świetny post od Anthropic! Chodzi o poprawę twoich agentów za pomocą ewaluacji. Oto moje szybkie wnioski z bloga: Możliwości, które sprawiają, że agenci są użyteczni (autonomia, inteligencja, elastyczność) są tymi samymi, które sprawiają, że trudno je ocenić. Nie możesz po prostu uruchomić testów jednostkowych i oczekiwać, że twoja aplikacja agenta będzie działać. Ten przewodnik przedstawia praktyczny framework, którego używają deweloperzy Anthropic do ewaluacji agentów. Wspomnieli o trzech typach oceniających, z których każdy ma swoje wady i zalety: - Oceniający oparte na kodzie są szybcy, tanio i powtarzalni, ale wrażliwi na ważne wariacje. - Oceniający oparte na modelach radzą sobie z niuansami i otwartymi zadaniami, ale są niedeterministyczne i wymagają kalibracji przez ludzi. - Oceniający ludzie są złotym standardem jakości, ale drodzy i wolni. Mówią również o dwóch kategoriach ewaluacji, które służą różnym celom. 1) Ewaluacje możliwości pytają "co ten agent potrafi dobrze?" i zaczynają się od niskich wskaźników zdawalności. 2) Ewaluacje regresji pytają "czy nadal potrafi obsługiwać wcześniejsze zadania?" i powinny utrzymywać się blisko 100%. Zadania przechodzące z możliwości do regresji reprezentują rzeczywisty postęp. Dla niedeterministyczności dwa wskaźniki mają znaczenie. pass@k mierzy prawdopodobieństwo przynajmniej jednego sukcesu w k próbach. pass^k mierzy prawdopodobieństwo, że wszystkie k prób zakończą się sukcesem. Te wartości dramatycznie się różnią, przy k=10, pass@k może zbliżyć się do 100%, podczas gdy pass^k spada blisko zera. Bardzo dobrym tipem w blogach jest rozpoczęcie od 20-50 prostych zadań z rzeczywistych porażek, zamiast czekać na perfekcję. Przekształć ręczne kontrole, które już wykonujesz, w przypadki testowe. Oceniaj wyniki, a nie ścieżki, które zostały podjęte. Uwzględnij częściowe punkty za złożone zadania. Typowe pułapki to sztywne ocenianie, które karze za równoważne, ale inaczej sformatowane odpowiedzi, niejednoznaczne specyfikacje zadań oraz stochastyczne zadania, które są niemożliwe do powtórzenia. ...