Uang sebagai skalar eval berarti: - Tindakan LLM menjadi dapat diperingkat - Kesalahan memiliki penalti yang terukur - Hadiah dapat diukur di seluruh alat
Pemikiran saya adalah bahwa uang harus bekerja sebagai sinyal penyelarasan yang kuat untuk tugas-tugas agen. Bukan hanya karena mengkodekan nilai, tetapi terlebih lagi karena: - Menegakkan kelangkaan - menciptakan biaya peluang - menyediakan unit universal untuk evaluasi Ini adalah kerangka kerja yang jauh berbeda untuk pasca-pelatihan daripada RLHF tradisional
65