Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cea mai dificilă întrebare deschisă pentru învățarea continuă este să găsești reperele potrivite și experiențele de produs pentru distilarea contextului
Există o listă destul de finită de metode pe care ar trebui să le iei în considerare, care vor avea compromisuri în diferite regimuri. Doar că momentan nu este foarte evident cum să le evaluezi între ele sau pentru ce problemă specifică ai implementa inițial o soluție
Un extrem: învățarea "continuă" pe blocuri discrete de 6 luni, pentru cunoaștere completă a lumii intuitive
Ne așteptăm cu adevărat să existe ceva mai bun decât continuarea întregului internet înainte sau mijloc de antrenament + reluarea antrenamentului normal după antrenament?
Adică, sigur, poate poți face comuziunea greutăților între vechiul checkpoint post-antrenat și un noul checkpoint CPT pentru a economisi niște lucruri, poate poți doar CPT anumite straturi/experți, și am putea experimenta scump ce versiune a acestuia este cea mai practică, dar spațiul de design este cunoscut
Prin "distilare a contextului" mă refer la faptul că vei dori un pipeline automat care să preia dump-uri de informații (transcrieri de chat, text web, istoricul repo-urilor) și să le organizeze într-un mod mai util pentru mijloc/post-training decât forma brută (de exemplu, sesiuni de întrebări și răspunsuri de bază)
84
Limită superioară
Clasament
Favorite
