Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Uang sebagai skalar eval berarti:
- Tindakan LLM menjadi dapat diperingkat
- Kesalahan memiliki penalti yang terukur
- Hadiah dapat diukur di seluruh alat
Pemikiran saya adalah bahwa uang harus bekerja sebagai sinyal penyelarasan yang kuat untuk tugas-tugas agen.
Bukan hanya karena mengkodekan nilai, tetapi terlebih lagi karena:
- Menegakkan kelangkaan
- menciptakan biaya peluang
- menyediakan unit universal untuk evaluasi
Ini adalah kerangka kerja yang jauh berbeda untuk pasca-pelatihan daripada RLHF tradisional
65
Teratas
Peringkat
Favorit
