一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

熱門話題

DeepSeek 做的一件相當大膽的事情是，他們展示了 Engram 在 27B 時表現出色，然後在 40B 時幾乎沒有進一步改善，並且他們說「嗯，這是訓練不足」。我認為 Engram 層與 FFN 的容量配置在不同規模上有非平凡的影響。

這讓我想起了 DS-MoE，他們將「半激活」變體視為非常雄心勃勃的想法，將這個概念推向極限。自然地，最終 V2 擁有了這個稀疏比率，而 V3 則更稀疏。

225

熱門

排行

收藏