Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ще один крутий пост від Anthropic!
Все зводиться до покращення ваших агентів через оцінки.
Ось мої короткі висновки з блогу:
Можливості, які роблять агентів корисними (автономія, інтелект, гнучкість), — це ті саме, що ускладнюють їх оцінку. Ви не можете просто запускати модульні тести і очікувати, що ваш агентний додаток працюватиме.
У цьому посібнику розглядається практична структура, яку розробники Anthropic використовують для оцінки агентів.
Вони згадали три типи грейдерів, кожен з яких має свої компроміси:
- Кодові грейдери швидкі, дешеві та відтворювані, але крихкі до дійсних варіацій.
- Модельні грейдери виконують нюанси та відкриті завдання, але є недетермінованими і потребують людської калібрування.
- Людські оцінювачі мають золотий стандарт, але дорогі та повільні.
Вони також говорять про дві категорії оцінок, які виконують різні цілі.
1) Оцінки можливостей запитують: «Що цей агент може робити?» і починайте з низьких показників проходження.
2) Регресійні оцінки запитують: «чи може він ще впоратися з попередніми завданнями?» і має залишатися близько 100%. Завдання, що переходять від здатності до регресії, означають реальний прогрес.
Для недетермінованості важливі дві метрики. pass@k вимірює ймовірність хоча б одного успіху в k спроб. pass^k вимірює ймовірність того, що всі k спроби будуть успішними. Вони різко розходяться, при k=10, pass@k можуть наближатися до 100%, тоді як pass^k падає майже до нуля.
Дуже хороша порада в блогах — починати з 20-50 простих завдань із реальних невдач, а не чекати на досконалість. Перетворіть ручні перевірки, які ви вже проводили, у тестові випадки. Результати оцінки, а не обрані шляхи. Включіть часткові кредити за складні завдання.
Поширені пастки включають жорстке оцінювання, яке карає еквівалентні, але інакше форматовані відповіді, неоднозначні специфікації завдань і стохастичні завдання, які неможливо відтворити.
...

Найкращі
Рейтинг
Вибране
