熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
來自Anthropic的又一篇精彩文章!
這篇文章主要講述如何通過評估來改善你的代理。
以下是我從博客中快速整理的要點:
使代理有用的能力(自主性、智慧、靈活性)正是使它們難以評估的原因。你不能僅僅運行單元測試就期望你的代理應用能正常運作。
這份指南詳細介紹了Anthropic開發者用於代理評估的實用框架。
他們提到了三種類型的評分者,每種都有其利弊:
- 基於代碼的評分者快速、便宜且可重複,但對有效變化較脆弱。
- 基於模型的評分者能處理細微差別和開放式任務,但是非確定性的,並且需要人類校準。
- 人類評分者質量達到金標準,但成本高且速度慢。
他們還談到了兩類評估,服務於不同的目的。
1) 能力評估詢問「這個代理能做什麼好?」並且起始通過率較低。
2) 回歸評估詢問「它還能處理之前的任務嗎?」並應保持接近100%。從能力到回歸的任務代表了真正的進步。
對於非確定性,有兩個指標很重要。pass@k衡量在k次嘗試中至少成功一次的概率。pass^k衡量所有k次試驗成功的概率。這兩者在k=10時會有顯著差異,pass@k可以接近100%,而pass^k則接近零。
博客中的一個非常好的建議是,從20-50個來自真實失敗的簡單任務開始,而不是等待完美。將你已經執行的手動檢查轉換為測試案例。評分輸出,而不是所採取的路徑。對於複雜任務包括部分得分。
常見的陷阱包括僵化的評分,懲罰格式不同但等效的答案,模糊的任務規範,以及無法重現的隨機任務。
...

熱門
排行
收藏
