Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Przeszliśmy długą drogę w stabilności treningu RL asynchronicznego. Jeszcze niedawno naiwne grpo po prostu się zawieszało przy kompilacji w torch z powodu niezgodności. Ale teraz możemy znacznie odbiegać od polityki, aby obsłużyć agentowy RL. Wiele naprawdę ważnych szczegółów w obliczeniach straty prime-rl, włączenie naszego najnowszego ulepszenia stabilności w niektórych naszych uruchomieniach robi dużą różnicę w niezgodności kl.

większość pochodzi od @Grad62304977, który znalazł alfa w niedawno opublikowanym artykule

750

Najlepsze

Ranking

Ulubione