DeepSeek 做的一件相當大膽的事情是,他們展示了 Engram 在 27B 時表現出色,然後在 40B 時幾乎沒有進一步改善,並且他們說「嗯,這是訓練不足」。 我認為 Engram 層與 FFN 的容量配置在不同規模上有非平凡的影響。
這讓我想起了 DS-MoE,他們將「半激活」變體視為非常雄心勃勃的想法,將這個概念推向極限。自然地,最終 V2 擁有了這個稀疏比率,而 V3 則更稀疏。
225