DApp-butik | Web3-hubb för evenemang och spel | OKX Wallet

Trendande ämnen

En ganska djärv sak DeepSeek gör är att de visar Engram som presterar bra på 27B, och sedan 40B som i princip inte förbättras ytterligare, och de säger «eh, det är undertränat». Jag tror att kapacitetsprofilen för Engram-lager jämfört med FFN:er har inte triviala effekter på olika skalor.

Det påminner mig om DS-MoE, där de såg på «halvaktiverad»-varianten som något väldigt ambitiöst och tog idén till gränsen. Naturligtvis hade V2 till slut just detta glesningsförhållande, och V3 var glesare.

89

Topp

Rankning

Favoriter