Un lucru destul de curajos pe care îl face DeepSeek este că arată Engram mergând grozav până la 27B, apoi 40B, care practic nu se îmbunătățește mai mult, și spun «eh, e subantrenat». Cred că profilul de capacitate al straturilor Engram față de FFN-urile are efecte neglijale la scări diferite.
Îmi amintește de DS-MoE, unde au văzut varianta «semi-activată» ca pe ceva foarte ambițios, ducând ideea la limită. Desigur, în cele din urmă V2 a avut exact acest raport de rarezare, iar V3 a fost mai rar.
152