Postingan banger lainnya dari Anthropic! Ini semua tentang meningkatkan agen Anda melalui eval. Berikut adalah poin cepat saya dari blog: Kemampuan yang membuat agen berguna (otonomi, kecerdasan, fleksibilitas) adalah kemampuan yang sama yang membuat mereka sulit untuk dievaluasi. Anda tidak bisa begitu saja menjalankan pengujian unit dan mengharapkan aplikasi agen Anda berfungsi. Panduan ini menguraikan kerangka kerja praktis yang digunakan pengembang Antropik untuk evalan agen. Mereka menyebutkan tiga jenis penilai, masing-masing dengan trade-off: - Grader berbasis kode cepat, murah, dan dapat direproduksi, tetapi rapuh untuk variasi yang valid. - Grader berbasis model menangani tugas bernuansa dan terbuka, tetapi tidak deterministik dan memerlukan kalibrasi manusia. - Grader manusia memiliki kualitas standar emas, tetapi mahal dan lambat. Mereka juga berbicara tentang dua kategori eval yang melayani tujuan yang berbeda. 1) Kemampuan bertanya "apa yang bisa dilakukan agen ini dengan baik?" dan mulai dengan tingkat kelulusan rendah. 2) Regresi bertanya "masih bisakah menangani tugas sebelumnya?" dan harus tetap mendekati 100%. Tugas yang lulus dari kemampuan ke regresi mewakili kemajuan nyata. Untuk non-determinisme, dua metrik penting. pass@k mengukur probabilitas setidaknya satu keberhasilan dalam k upaya. Lulus^k mengukur probabilitas bahwa semua percobaan k berhasil. Ini menyimpang secara dramatis, pada k = 10, pass@k dapat mendekati 100% sementara lulus ^ k turun ke dekat nol. Tip yang sangat bagus di blog adalah memulai dengan 20-50 tugas sederhana dari kegagalan nyata daripada menunggu kesempurnaan. Ubah pemeriksaan manual yang sudah Anda lakukan menjadi kasus pengujian. Keluaran nilai, bukan jalur yang diambil. Sertakan kredit parsial untuk tugas-tugas kompleks. Jebakan umum termasuk penilaian kaku yang menghukum jawaban yang setara tetapi diformat berbeda, spesifikasi tugas yang ambigu, dan tugas stokastik yang tidak mungkin direproduksi. ...