一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

DeepSeek 做的一件相当大胆的事情是，他们展示了 Engram 在 27B 时表现出色，然后在 40B 时几乎没有进一步改善，他们说「嗯，这个模型训练不足」。我认为 Engram 层与 FFN 的容量特征在不同规模下有着非平凡的影响。

这让我想起了DS-MoE，他们将“半激活”变体视为非常雄心勃勃的东西，将这个想法推向极限。自然，最终V2正好具有这种稀疏比，而V3则更稀疏。

226

热门

排行

收藏