Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Costruire @EurekaLabsAI. In precedenza Direttore di AI @ Tesla, team fondatore @ OpenAI, CS231n/PhD @ Stanford. Mi piace addestrare grandi reti neurali profonde.
Nuovo post: miniserie nanochat v1
Il modo corretto di pensare agli LLM è che non stai ottimizzando per un singolo modello specifico, ma per una famiglia di modelli controllati da un'unica manopola (il calcolo che desideri spendere) per ottenere risultati monotonicamente migliori. Questo ti consente di fare una scienza accurata delle leggi di scaling e, in ultima analisi, è ciò che ti dà la fiducia che quando paghi per "la grande corsa", l'estrapolazione funzionerà e i tuoi soldi saranno ben spesi. Per il primo rilascio pubblico di nanochat, il mio focus era su una pipeline end-to-end che esegue l'intera pipeline LLM con tutte le sue fasi. Ora, dopo aver fatto YOLO in alcune corse precedenti, sto tornando indietro per sviluppare alcune delle parti che ho accelerato, partendo ovviamente dal pretraining, che è sia computazionalmente pesante che critico come fondamento dell'intelligenza e della conoscenza in questi modelli.
Dopo aver sintonizzato localmente alcuni degli iperparametri, ho eseguito una serie di modelli fissando il budget FLOPs. (Per ogni obiettivo FLOPs puoi addestrare un piccolo modello a lungo, o un grande modello per poco tempo.) Si scopre che nanochat obbedisce a leggi di scaling molto belle, riproducendo fondamentalmente i grafici del documento Chinchilla:
Che è solo una versione baby di questo grafico di Chinchilla:
Molto importante e incoraggiante, l'esponente su N (parametri) e D (token) è uguale a ~=0.5, quindi proprio come Chinchilla otteniamo una costante (indipendente dal calcolo) che relaziona la dimensione del modello agli orizzonti di addestramento dei token. In Chinchilla, questo è stato misurato essere 20. In nanochat sembra essere 8!
Una volta che possiamo addestrare modelli ottimali dal punto di vista computazionale, ho eseguito una miniserie da d10 a d20, che sono dimensioni nanochat che possono gestire 2**19 ~= 0.5M dimensioni di batch su nodo 8XH100 senza accumulo di gradienti. Otteniamo grafici di addestramento belli e non intersecanti per ciascuna dimensione del modello.
Poi la parte divertente è relazionare questa miniserie v1 alle miniserie GPT-2 e GPT-3 in modo da sapere che siamo sulla strada giusta. La perdita di validazione ha molti problemi e non è comparabile, quindi invece utilizzo il punteggio CORE (dal documento DCLM). L'ho calcolato per GPT-2 e l'ho stimato per GPT-3, il che ci consente finalmente di posizionare nanochat in modo ordinato e sulla stessa scala:
Il costo totale di questa miniserie è solo ~$100 (~4 ore su 8XH100). Questi esperimenti ci danno fiducia che tutto sta funzionando abbastanza bene e che se paghiamo di più (giriamo la manopola), otteniamo modelli sempre migliori.
TLDR: possiamo addestrare miniserie ottimali dal punto di vista computazionale e relazionarli a GPT-2/3 tramite punteggi CORE obiettivi, ma ulteriori miglioramenti sono auspicabili e necessari. Ad esempio, abbinare GPT-2 attualmente richiede ~$500, ma secondo me dovrebbe essere possibile farlo per <$100 con più lavoro.
Il post completo con molti più dettagli è qui:
E tutta la sintonizzazione e il codice sono stati caricati su master e le persone possono riprodurre questi con gli script bash scaling_laws .sh e miniseries .sh.




1,17K
Il primo viaggio 100% autonomo da costa a costa con Tesla FSD V14.2! 2 giorni 20 ore, 2732 miglia, zero interventi.
Questo è speciale perché il viaggio da costa a costa era un obiettivo importante per il team dell'autopilota fin dall'inizio. Sono state dedicate molte ore a sessioni di revisione dei clip in maratona fino a notte fonda, esaminando gli interventi mentre tentavamo le tratte del viaggio nel tempo - triaging, categorizzando, pianificando tutti i progetti per colmare il divario e portare il numero di interventi a zero.
Incredibile vedere il sistema effettivamente arrivarci e grandi congratulazioni al team!

David Moss31 dic 2025
I am proud to announce that I have successfully completed the world’s first USA coast to coast fully autonomous drive!
I left the Tesla Diner in Los Angeles 2 days & 20 hours ago, and now have ended in Myrtle Beach, SC (2,732.4 miles)
This was accomplished with Tesla FSD V14.2 with absolutely 0 disengagements of any kind even for all parking including at Tesla Superchargers.

466
Principali
Ranking
Preferiti
