Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Membangun @EurekaLabsAI. Sebelumnya Direktur AI @ Tesla, tim pendiri @ OpenAI, CS231n/PhD @ Stanford. Saya suka melatih jaring saraf dalam yang besar.
Pos baru: miniseri nanochat v1
Cara yang benar untuk berpikir tentang LLM adalah bahwa Anda tidak mengoptimalkan untuk satu model tertentu tetapi untuk model keluarga yang dikendalikan oleh satu dial (komputasi yang ingin Anda belanjakan) untuk mencapai hasil yang lebih baik secara monoton. Ini memungkinkan Anda untuk melakukan ilmu yang cermat tentang hukum penskalaan dan pada akhirnya inilah yang memberi Anda keyakinan bahwa ketika Anda membayar untuk "lari besar", ekstrapolasi akan berhasil dan uang Anda akan dibelanjakan dengan baik. Untuk rilis publik pertama nanochat, fokus saya adalah pada pipeline end-to-end yang menjalankan seluruh pipeline LLM dengan semua tahapnya. Sekarang setelah YOLOing beberapa kali sebelumnya, saya kembali untuk menyempurnakan beberapa bagian yang saya lalui, dimulai tentu saja dengan pra-pelatihan, yang secara komputasi berat dan penting sebagai dasar kecerdasan dan pengetahuan dalam model ini.
Setelah menyetel beberapa hiperparameter secara lokal, saya menyapu sejumlah model memperbaiki anggaran FLOP. (Untuk setiap target FLOP, Anda dapat melatih model kecil dalam waktu yang lama, atau model besar untuk waktu yang singkat.) Ternyata nanochat mematuhi hukum penskalaan yang sangat bagus, pada dasarnya mereproduksi plot kertas Chinchilla:
Yang hanya versi bayi dari plot dari Chinchilla ini:
Sangat penting dan menggembirakan, eksponen pada N (parameter) dan D (token) sama pada ~=0,5, jadi seperti Chinchilla kita mendapatkan konstanta tunggal (independen komputasi) yang menghubungkan ukuran model dengan cakrawala pelatihan token. Di Chinchilla, ini diukur menjadi 20. Di nanochat sepertinya 8!
Setelah kami dapat melatih model komputasi optimal, saya menyapu miniseri dari d10 hingga d20, yang merupakan ukuran nanochat yang dapat melakukan ukuran batch 2**19 ~= 0,5M pada node 8XH100 tanpa akumulasi gradien. Kami mendapatkan plot pelatihan yang cantik dan tidak berulang untuk setiap ukuran model.
Kemudian bagian yang menyenangkan adalah menghubungkan miniseri v1 ini dengan miniseri GPT-2 dan GPT-3 sehingga kita tahu bahwa kita berada di jalur yang benar. Kehilangan validasi memiliki banyak masalah dan tidak sebanding, jadi sebagai gantinya saya menggunakan skor CORE (dari makalah DCLM). Saya menghitungnya untuk GPT-2 dan memperkirakannya untuk GPT-3, yang memungkinkan kita untuk akhirnya menempatkan nanochat dengan baik dan pada skala yang sama:
Total biaya miniseri ini hanya ~$100 (~4 jam di 8XH100). Eksperimen ini memberi kita keyakinan bahwa semuanya bekerja dengan cukup baik dan jika kita membayar lebih (putar dial), kita mendapatkan model yang semakin baik.
TLDR: kami dapat melatih miniseri komputasi optimal dan menghubungkannya dengan GPT-2/3 melalui skor CORE objektif, tetapi peningkatan lebih lanjut diinginkan dan diperlukan. Misalnya, mencocokkan GPT-2 saat ini membutuhkan ~$500, tetapi imo seharusnya dapat melakukan <$100 dengan lebih banyak pekerjaan.
Posting lengkap dengan lebih banyak detail ada di sini:
Dan semua penyetelan dan kode didorong untuk dikuasai dan orang dapat mereproduksinya dengan scaling_laws .sh dan miniseri .sh skrip bash.




1,24K
Perjalanan 100% otonom dari pantai ke pantai pertama di Tesla FSD V14.2! 2 hari 20 jam, 2732 mil, nol intervensi.
Yang ini istimewa karena perjalanan dari pantai ke pantai adalah tujuan utama tim autopilot sejak awal. Banyak jam dihabiskan dalam sesi peninjauan klip maraton hingga larut malam untuk melihat intervensi saat kami mencoba perjalanan dari waktu ke waktu - memitri, mengkategorikan, merencanakan semua proyek untuk menutup kesenjangan dan membuat jumlah intervensi menjadi nol.
Luar biasa melihat sistem benar-benar sampai di sana dan selamat banyak kepada tim!

David Moss31 Des 2025
Saya bangga mengumumkan bahwa saya telah berhasil menyelesaikan penggerak otonom penuh pantai ke pantai AS pertama di dunia!
Saya meninggalkan Tesla Diner di Los Angeles 2 hari & 20 jam yang lalu, dan sekarang telah berakhir di Myrtle Beach, SC (2,732.4 mil)
Ini dicapai dengan Tesla FSD V14.2 dengan benar-benar 0 pelepasan dalam bentuk apa pun bahkan untuk semua parkir termasuk di Tesla Supercharger.

493
Teratas
Peringkat
Favorit
