En ganska djärv sak DeepSeek gör är att de visar Engram som presterar bra på 27B, och sedan 40B som i princip inte förbättras ytterligare, och de säger «eh, det är undertränat». Jag tror att kapacitetsprofilen för Engram-lager jämfört med FFN:er har inte triviala effekter på olika skalor.
Det påminner mig om DS-MoE, där de såg på «halvaktiverad»-varianten som något väldigt ambitiöst och tog idén till gränsen. Naturligtvis hade V2 till slut just detta glesningsförhållande, och V3 var glesare.
89