Отже:
Engram — це moe над ngramed пам'яттю
mHC — це moe над залишковим потоком
АНБ — це надмірна увага
MoE — це moe над FFN
... Я відчуваю певну тему...
моя улюблена частина останніх двох статей DeepSeek — це ці сторінки з гіперпараметрами. це дозволило фактично відтворити (спроби) статей у значущому масштабі