Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Еще один отличный пост от Anthropic!
Все дело в улучшении ваших агентов с помощью оценок.
Вот мои краткие выводы из блога:
Способности, которые делают агентов полезными (автономия, интеллект, гибкость), являются теми же, которые делают их трудными для оценки. Вы не можете просто запустить модульные тесты и ожидать, что ваше агентное приложение будет работать.
Этот гид разбивает практическую структуру, которую используют разработчики Anthropic для оценок агентов.
Они упомянули три типа оценщиков, каждый из которых имеет свои плюсы и минусы:
- Оценщики на основе кода быстрые, дешевые и воспроизводимые, но хрупкие к допустимым вариациям.
- Оценщики на основе модели справляются с нюансами и открытыми задачами, но являются недетерминированными и требуют человеческой калибровки.
- Человеческие оценщики имеют качество золотого стандарта, но дорогие и медленные.
Они также говорят о двух категориях оценок, которые служат разным целям.
1) Оценки возможностей спрашивают "что этот агент может делать хорошо?" и начинаются с низких проходных баллов.
2) Регрессионные оценки спрашивают "может ли он все еще справляться с предыдущими задачами?" и должны оставаться близкими к 100%. Задачи, переходящие от возможностей к регрессии, представляют собой реальный прогресс.
Для недетерминированности важны две метрики. pass@k измеряет вероятность хотя бы одного успеха за k попыток. pass^k измеряет вероятность того, что все k испытаний успешны. Эти показатели резко расходятся: при k=10, pass@k может приблизиться к 100%, в то время как pass^k падает до почти нуля.
Действительно хороший совет в блогах - начинать с 20-50 простых задач из реальных неудач, а не ждать совершенства. Преобразуйте ручные проверки, которые вы уже выполняете, в тестовые случаи. Оценивайте результаты, а не пройденные пути. Включайте частичный кредит за сложные задачи.
Распространенные ошибки включают жесткую оценку, которая наказывает за эквивалентные, но по-разному оформленные ответы, неоднозначные спецификации задач и стохастические задачи, которые невозможно воспроизвести.
...

Топ
Рейтинг
Избранное
