Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Další skvělý příspěvek od Anthropic!
Jde hlavně o zlepšení vašich agentů prostřednictvím hodnocení.
Tady jsou mé rychlé poznatky z blogu:
Schopnosti, které činí agenty užitečnými (autonomie, inteligence, flexibilita), jsou ty samé, které je činí těžko hodnotitelnými. Nemůžete jen spouštět jednotkové testy a čekat, že vaše Agentic aplikace bude fungovat.
Tento průvodce rozebírá praktický rámec, který vývojáři Anthropic používají pro hodnocení agentů.
Zmínili tři typy hodnotitelů, každý s nevýhodami:
- Kódové gradery jsou rychlé, levné a reprodukovatelné, ale křehké vůči platným variantám.
- Modelové gradery řeší nuance a otevřené úkoly, ale jsou nedeterministické a vyžadují lidskou kalibraci.
- Lidské hodnotitele jsou zlaté kvality, ale drahé a pomalé.
Také mluví o dvou kategoriích hodnocení, která slouží různým účelům.
1) Hodnocení schopností se ptají "co tento agent umí dobře?" a začínají na nízkých úspěšnostech.
2) Regrese se ptají "zvládne to stále předchozí úkoly?" a mělo by zůstat téměř na 100 %. Úkoly přecházející z schopnosti na regresi představují skutečný pokrok.
Pro nedeterminismus jsou důležité dvě metriky. pass@k měří pravděpodobnost alespoň jednoho úspěchu v k pokusech. pass^k měří pravděpodobnost, že všechny k pokusy uspějí. Tyto se dramaticky rozcházejí, při k=10 může pass@k dosáhnout 100 %, zatímco pass^k klesne téměř na nulu.
Skvělý tip v blozích je začít s 20–50 jednoduchými úkoly z opravdových neúspěchů, místo abyste čekali na dokonalost. Převeďte ruční kontroly, které už provádíte, na testovací případy. Hodnocení výstupů, ne zvolené cesty. Zahrňte částečné uznání za složité úkoly.
Mezi běžné úskalí patří rigidní hodnocení, které penalizuje ekvivalentní, ale jinak formátované odpovědi, nejasné specifikace úkolů a stochastické úkoly, které nelze reprodukovat.
...

Top
Hodnocení
Oblíbené
