Para bir değerlendirme skaları olarak şu anlam taşır: - LLM Eylemleri sıralanabilir hale gelir - Hataların ölçülebilir cezaları vardır - Ödüller araçlar arasında ölçülebilir
Benim düşüncem, paranın ajanik görevler için güçlü bir hizalama sinyali olarak çalışması gerektiği. Sadece değerleri kodladığı için değil, daha çünkü: - kıtlığı önler - fırsat maliyeti yaratır - Değerlendirme için evrensel bir birim sağlar Bu, geleneksel RLHF'den çok farklı bir eğitim sonrası çerçevedir
69