DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Un altro post eccezionale da Anthropic! Si tratta di migliorare i tuoi agenti tramite valutazioni. Ecco i miei rapidi punti salienti dal blog: Le capacità che rendono utili gli agenti (autonomia, intelligenza, flessibilità) sono le stesse che li rendono difficili da valutare. Non puoi semplicemente eseguire test unitari e aspettarti che la tua app agentica funzioni. Questa guida analizza il framework pratico che gli sviluppatori di Anthropic utilizzano per le valutazioni degli agenti. Hanno menzionato tre tipi di valutatori, ognuno con i propri compromessi: - I valutatori basati su codice sono veloci, economici e riproducibili, ma fragili rispetto a variazioni valide. - I valutatori basati su modelli gestiscono le sfumature e i compiti aperti, ma sono non deterministici e richiedono calibrazione umana. - I valutatori umani sono di qualità standard d'oro, ma costosi e lenti. Parlano anche di due categorie di valutazioni che servono a scopi diversi. 1) Le valutazioni delle capacità chiedono "cosa può fare bene questo agente?" e partono da basse percentuali di superamento. 2) Le valutazioni di regressione chiedono "può ancora gestire compiti precedenti?" e dovrebbero rimanere vicino al 100%. I compiti che passano da capacità a regressione rappresentano un vero progresso. Per il non determinismo, due metriche sono importanti. pass@k misura la probabilità di almeno un successo in k tentativi. pass^k misura la probabilità che tutti i k tentativi abbiano successo. Queste divergenze sono drammatiche, a k=10, pass@k può avvicinarsi al 100% mentre pass^k scende vicino a zero. Un ottimo consiglio nei blog è di iniziare con 20-50 compiti semplici da fallimenti reali piuttosto che aspettare la perfezione. Trasforma i controlli manuali che già esegui in casi di test. Valuta i risultati, non i percorsi seguiti. Includi crediti parziali per compiti complessi. Le insidie comuni includono valutazioni rigide che penalizzano risposte equivalenti ma formattate in modo diverso, specifiche di compiti ambigue e compiti stocastici impossibili da riprodurre. ...

Principali

Ranking

Preferiti