Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Anthropic'ten bir başka harika gönderi!
Her şey ajanlarınızı değerlendirmelerle geliştirmekle ilgili.
İşte blogdan hızlı çıkarımlarım:
Ajanları faydalı kılan yetenekler (özerklik, zeka, esneklik) onları değerlendirmeyi zorlaştıran aynı yeteneklerdir. Sadece birim testleri yapıp ajanik uygulamanızın çalışmasını bekleyemezsiniz.
Bu rehber, Anthropic geliştiricilerin ajan değerlendirmeleri için kullandığı pratik çerçeveyi açıklar.
Her birinin bir takas verdiği üç tip notlayıcı belirttiler:
- Kod tabanlı dereceleyiciler hızlı, ucuz ve tekrarlanabilir, ancak geçerli varyasyonlara karşı kırılgandır.
- Model tabanlı derecelendirme cihazları nüans ve açık uçlu görevleri yönetir, ancak deterministik değildir ve insan kalibrasyonu gerektirir.
- İnsan sınıflandırma makineleri altın standart kalitededir ancak pahalı ve yavaştır.
Ayrıca farklı amaçlara hizmet eden iki değerlendirme kategorisinden de bahsediyorlar.
1) Yetenek değerlendirmeleri "bu ajan neyi iyi yapabilir?" diye soruyor ve düşük geçiş oranlarıyla başlar.
2) Regresyon değerlendirmeleri "önceki görevleri hala halledebilir mi?" diye soruyor ve %100 civarında kalması gerekir. Yetenekten gerileme geçişi gerçek ilerlemeyi temsil eder.
Belirsizlik için iki ölçüt önemlidir. pass@k, k denemede en az bir başarı olasılığını ölçür. pass^k, tüm k denemenin başarılı olma olasılığını ölçür. Bunlar k=10'da dramatik şekilde ayrılır, pass@k %100'e yaklaşabilirken, pass^k neredeyse sıfıra düşer.
Bloglarda gerçekten iyi bir ipucu, mükemmelliği beklemek yerine gerçek başarısızlıklardan 20-50 basit görevle başlamaktır. Zaten yaptığınız manuel kontrolleri test vakalarına dönüştürün. Çıktı derecesi, izlenen yollar değil. Karmaşık görevler için kısmi kredi ekleyin.
Yaygın tuzaklar arasında, eşdeğer ancak farklı formatlı cevapları cezalandıran katı derecelendirmeler, belirsiz görev özellikleri ve tekrarlaması imkansız stokastik görevler bulunur.
...

En İyiler
Sıralama
Takip Listesi
