Ще один крутий пост від Anthropic! Все зводиться до покращення ваших агентів через оцінки. Ось мої короткі висновки з блогу: Можливості, які роблять агентів корисними (автономія, інтелект, гнучкість), — це ті саме, що ускладнюють їх оцінку. Ви не можете просто запускати модульні тести і очікувати, що ваш агентний додаток працюватиме. У цьому посібнику розглядається практична структура, яку розробники Anthropic використовують для оцінки агентів. Вони згадали три типи грейдерів, кожен з яких має свої компроміси: - Кодові грейдери швидкі, дешеві та відтворювані, але крихкі до дійсних варіацій. - Модельні грейдери виконують нюанси та відкриті завдання, але є недетермінованими і потребують людської калібрування. - Людські оцінювачі мають золотий стандарт, але дорогі та повільні. Вони також говорять про дві категорії оцінок, які виконують різні цілі. 1) Оцінки можливостей запитують: «Що цей агент може робити?» і починайте з низьких показників проходження. 2) Регресійні оцінки запитують: «чи може він ще впоратися з попередніми завданнями?» і має залишатися близько 100%. Завдання, що переходять від здатності до регресії, означають реальний прогрес. Для недетермінованості важливі дві метрики. pass@k вимірює ймовірність хоча б одного успіху в k спроб. pass^k вимірює ймовірність того, що всі k спроби будуть успішними. Вони різко розходяться, при k=10, pass@k можуть наближатися до 100%, тоді як pass^k падає майже до нуля. Дуже хороша порада в блогах — починати з 20-50 простих завдань із реальних невдач, а не чекати на досконалість. Перетворіть ручні перевірки, які ви вже проводили, у тестові випадки. Результати оцінки, а не обрані шляхи. Включіть часткові кредити за складні завдання. Поширені пастки включають жорстке оцінювання, яке карає еквівалентні, але інакше форматовані відповіді, неоднозначні специфікації завдань і стохастичні завдання, які неможливо відтворити. ...