热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
Anthropic又发了一篇精彩的帖子!
这篇文章主要讲的是通过评估来提升你的智能体。
以下是我从博客中快速总结的要点:
使智能体有用的能力(自主性、智能、灵活性)正是使它们难以评估的原因。你不能仅仅运行单元测试就指望你的智能应用能正常工作。
这份指南详细介绍了Anthropic开发者用于智能体评估的实用框架。
他们提到了三种类型的评分者,每种都有其权衡:
- 基于代码的评分者快速、便宜且可重复,但对有效的变体较为脆弱。
- 基于模型的评分者能够处理细微差别和开放式任务,但是非确定性的,并且需要人工校准。
- 人工评分者质量上乘,但成本高且速度慢。
他们还讨论了两类评估,服务于不同的目的。
1)能力评估询问“这个智能体能做什么好?”并且起始通过率较低。
2)回归评估询问“它还能处理以前的任务吗?”并且应该保持在接近100%。从能力到回归的任务代表了真正的进步。
对于非确定性,有两个指标很重要。pass@k衡量在k次尝试中至少成功一次的概率。pass^k衡量所有k次试验成功的概率。这两者在k=10时会显著不同,pass@k可以接近100%,而pass^k则接近于零。
博客中的一个非常好的建议是,从20-50个真实失败的简单任务开始,而不是等待完美。将你已经执行的手动检查转换为测试用例。评分输出,而不是采取的路径。对复杂任务给予部分分数。
常见的陷阱包括僵化的评分,惩罚格式不同但等效的答案,模糊的任务规范,以及无法重现的随机任务。
...

热门
排行
收藏
