Pieniądz jako skalar oceny oznacza: - Działania LLM stają się ocenialne - Błędy mają wymierne kary - Nagrody są porównywalne między narzędziami
Moim zdaniem pieniądze powinny działać jako silny sygnał zgodności dla zadań agentowych. Nie tylko dlatego, że kodują wartości, ale przede wszystkim dlatego, że: - wymuszają rzadkość - tworzą koszt alternatywny - zapewniają uniwersalną jednostkę oceny To zupełnie inna struktura po szkoleniu niż tradycyjne RLHF.
72