Penger som en eval-skalar betyr: - LLM-handlinger blir rangerbare - Feil har målbare straffer - Belønninger er kompensurable på tvers av verktøyene
Min tanke er at penger bør fungere som et sterkt signal for agentiske oppgaver. Ikke bare fordi den koder verdier, men enda mer fordi den: - håndhever knapphet - skaper alternativkostnad - gir en universell enhet for evaluering Dette er et helt annet rammeverk for ettertrening enn tradisjonell RLHF
64