Een behoorlijk gedurfde zet van DeepSeek is dat ze Engram laten zien die het geweldig doet tot 27B, en dan 40B dat eigenlijk niet verder verbetert, en ze zeggen «eh het is ondergetraind». Ik denk dat het capaciteitsprofiel van Engram-lagen versus FFN's niet triviale effecten heeft op verschillende schalen.
Het doet me denken aan DS-MoE, waar ze de «half geactiveerde» variant beschouwden als iets zeer ambitieus, waarbij ze het idee tot het uiterste doorvoerden. Natuurlijk had V2 uiteindelijk precies deze sparsiteitsverhouding, en V3 was nog sparsier.
161