Przeszliśmy długą drogę w stabilności treningu RL asynchronicznego. Jeszcze niedawno naiwne grpo po prostu się zawieszało przy kompilacji w torch z powodu niezgodności. Ale teraz możemy znacznie odbiegać od polityki, aby obsłużyć agentowy RL. Wiele naprawdę ważnych szczegółów w obliczeniach straty prime-rl, włączenie naszego najnowszego ulepszenia stabilności w niektórych naszych uruchomieniach robi dużą różnicę w niezgodności kl.
większość pochodzi od @Grad62304977, który znalazł alfa w niedawno opublikowanym artykule
750