DeepSeek 做的一件相当大胆的事情是,他们展示了 Engram 在 27B 时表现出色,然后在 40B 时几乎没有进一步改善,他们说「嗯,这个模型训练不足」。 我认为 Engram 层与 FFN 的容量特征在不同规模下有着非平凡的影响。
这让我想起了DS-MoE,他们将“半激活”变体视为非常雄心勃勃的东西,将这个想法推向极限。自然,最终V2正好具有这种稀疏比,而V3则更稀疏。
226