一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

#

Bonk 生态迷因币展现强韧势头

#

有消息称 Pump.fun 计划 40 亿估值发币，引发市场猜测

LAUNCHCOIN-5.8%

#

Solana 新代币发射平台 Boop.Fun 风头正劲

header

samsja

@PrimeIntellect 领先的研究

samsja

samsja1月1日 19:17

我们在异步强化学习训练的稳定性方面取得了很大的进展。不久前，简单的 grpo 就会因为不匹配而在 torch compile 时崩溃。但现在我们可以在很大程度上偏离策略来处理代理强化学习。在 prime-rl 损失计算中有很多非常重要的细节，开启我们最新的稳定性改进在一些运行中会对 kl 不匹配产生重大影响。

713

samsja

samsja2025年12月31日

我们刚刚在 prime-rl 中合并了政策蒸馏。

556

热门

排行

收藏

©2017 - 2026 WEB3.OKX.COM

简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

关于 OKX Wallet

下载学院关于我们就业机会联系我们服务条款隐私政策 X (原推特)

产品

行情币币兑换市场赚币发现开发者中心浏览器安全

用户支持

帮助中心官方渠道验证公告 DEX 费率标准加入社群比特币钱包以太坊钱包 Solana 钱包