DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Andrej Karpathy

Costruire @EurekaLabsAI. In precedenza Direttore di AI @ Tesla, team fondatore @ OpenAI, CS231n/PhD @ Stanford. Mi piace addestrare grandi reti neurali profonde.

Nuovo post: miniserie nanochat v1 Il modo corretto di pensare agli LLM è che non stai ottimizzando per un singolo modello specifico, ma per una famiglia di modelli controllati da un'unica manopola (il calcolo che desideri spendere) per ottenere risultati monotonicamente migliori. Questo ti consente di fare una scienza accurata delle leggi di scaling e, in ultima analisi, è ciò che ti dà la fiducia che quando paghi per "la grande corsa", l'estrapolazione funzionerà e i tuoi soldi saranno ben spesi. Per il primo rilascio pubblico di nanochat, il mio focus era su una pipeline end-to-end che esegue l'intera pipeline LLM con tutte le sue fasi. Ora, dopo aver fatto YOLO in alcune corse precedenti, sto tornando indietro per sviluppare alcune delle parti che ho accelerato, partendo ovviamente dal pretraining, che è sia computazionalmente pesante che critico come fondamento dell'intelligenza e della conoscenza in questi modelli. Dopo aver sintonizzato localmente alcuni degli iperparametri, ho eseguito una serie di modelli fissando il budget FLOPs. (Per ogni obiettivo FLOPs puoi addestrare un piccolo modello a lungo, o un grande modello per poco tempo.) Si scopre che nanochat obbedisce a leggi di scaling molto belle, riproducendo fondamentalmente i grafici del documento Chinchilla: Che è solo una versione baby di questo grafico di Chinchilla: Molto importante e incoraggiante, l'esponente su N (parametri) e D (token) è uguale a ~=0.5, quindi proprio come Chinchilla otteniamo una costante (indipendente dal calcolo) che relaziona la dimensione del modello agli orizzonti di addestramento dei token. In Chinchilla, questo è stato misurato essere 20. In nanochat sembra essere 8! Una volta che possiamo addestrare modelli ottimali dal punto di vista computazionale, ho eseguito una miniserie da d10 a d20, che sono dimensioni nanochat che possono gestire 2**19 ~= 0.5M dimensioni di batch su nodo 8XH100 senza accumulo di gradienti. Otteniamo grafici di addestramento belli e non intersecanti per ciascuna dimensione del modello. Poi la parte divertente è relazionare questa miniserie v1 alle miniserie GPT-2 e GPT-3 in modo da sapere che siamo sulla strada giusta. La perdita di validazione ha molti problemi e non è comparabile, quindi invece utilizzo il punteggio CORE (dal documento DCLM). L'ho calcolato per GPT-2 e l'ho stimato per GPT-3, il che ci consente finalmente di posizionare nanochat in modo ordinato e sulla stessa scala: Il costo totale di questa miniserie è solo ~$100 (~4 ore su 8XH100). Questi esperimenti ci danno fiducia che tutto sta funzionando abbastanza bene e che se paghiamo di più (giriamo la manopola), otteniamo modelli sempre migliori. TLDR: possiamo addestrare miniserie ottimali dal punto di vista computazionale e relazionarli a GPT-2/3 tramite punteggi CORE obiettivi, ma ulteriori miglioramenti sono auspicabili e necessari. Ad esempio, abbinare GPT-2 attualmente richiede ~$500, ma secondo me dovrebbe essere possibile farlo per <$100 con più lavoro. Il post completo con molti più dettagli è qui: E tutta la sintonizzazione e il codice sono stati caricati su master e le persone possono riprodurre questi con gli script bash scaling_laws .sh e miniseries .sh.

Principali

Ranking

Preferiti