Одна досить смілива річ DeepSeek — це показати, як Engram чудово працює на рівні до 27B, а потім 40B, який майже не покращується далі, і кажуть: «Ех, це недотреновано». Я вважаю, що профіль пропускної здатності шарів Engram порівняно з FFN має нетривіальні ефекти на різних масштабах.
Це нагадує мені DS-MoE, де вони розглядали варіант «напівактивований» як щось дуже амбітне, доводячи ідею до межі. Звісно, зрештою V2 мав саме таке співвідношення розрідженості, а V3 став рідшим.
88