Еще один отличный пост от Anthropic! Все дело в улучшении ваших агентов с помощью оценок. Вот мои краткие выводы из блога: Способности, которые делают агентов полезными (автономия, интеллект, гибкость), являются теми же, которые делают их трудными для оценки. Вы не можете просто запустить модульные тесты и ожидать, что ваше агентное приложение будет работать. Этот гид разбивает практическую структуру, которую используют разработчики Anthropic для оценок агентов. Они упомянули три типа оценщиков, каждый из которых имеет свои плюсы и минусы: - Оценщики на основе кода быстрые, дешевые и воспроизводимые, но хрупкие к допустимым вариациям. - Оценщики на основе модели справляются с нюансами и открытыми задачами, но являются недетерминированными и требуют человеческой калибровки. - Человеческие оценщики имеют качество золотого стандарта, но дорогие и медленные. Они также говорят о двух категориях оценок, которые служат разным целям. 1) Оценки возможностей спрашивают "что этот агент может делать хорошо?" и начинаются с низких проходных баллов. 2) Регрессионные оценки спрашивают "может ли он все еще справляться с предыдущими задачами?" и должны оставаться близкими к 100%. Задачи, переходящие от возможностей к регрессии, представляют собой реальный прогресс. Для недетерминированности важны две метрики. pass@k измеряет вероятность хотя бы одного успеха за k попыток. pass^k измеряет вероятность того, что все k испытаний успешны. Эти показатели резко расходятся: при k=10, pass@k может приблизиться к 100%, в то время как pass^k падает до почти нуля. Действительно хороший совет в блогах - начинать с 20-50 простых задач из реальных неудач, а не ждать совершенства. Преобразуйте ручные проверки, которые вы уже выполняете, в тестовые случаи. Оценивайте результаты, а не пройденные пути. Включайте частичный кредит за сложные задачи. Распространенные ошибки включают жесткую оценку, которая наказывает за эквивалентные, но по-разному оформленные ответы, неоднозначные спецификации задач и стохастические задачи, которые невозможно воспроизвести. ...