Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Будівля @EurekaLabsAI. Раніше директор AI @ Tesla, команда засновників @ OpenAI, CS231n/PhD @ Stanford. Мені подобається тренувати великі глибокі нейронні мережі.
Новий допис: мінісеріал nanochat v1
Правильний спосіб уявлення про LLM полягає в тому, що ви оптимізуєте не для однієї конкретної моделі, а для сімейства, керованих одним циферблатом (обчислювальним ресурсом, який ви хочете витратити), щоб досягти монотонно кращих результатів. Це дозволяє ретельно вивчати закони масштабування, і врешті-решт саме це дає вам впевненість, що коли ви платите за «великий пробіг», екстраполяція спрацює, і ваші гроші будуть витрачені з користі. Для першого публічного релізу nanochat я зосередився на наскрізному конвеєрі, який керує всіма етапами LLM-конвеєру. Тепер, після кількох YOLO раніше проходження, я повертаюся, щоб допрацювати деякі частини, які я пройшов швидко, починаючи, звісно, з попереднього навчання, яке є і обчислювально важким, і критично важливим як основа інтелекту та знань у цих моделях.
Після локального налаштування деяких гіперпараметрів я видалив кілька моделей, які виправляли бюджет FLOPs. (Для кожної цілі FLOPs можна навчати малу модель довго, а велику — короткий час.) Виявляється, наночат підкоряється дуже гарним законам масштабування, фактично відтворюючи графіки паперу Chinchilla:
Це лише маленька версія цього сюжету з «Шиншили»:
Дуже важливо і обнадійливо, що показник показника N (параметрів) і D (токенів) дорівнює ~=0,5, тож, як у Chinchilla, ми отримуємо одну (незалежну від обчислень) константу, яка пов'язує розмір моделі з навчальними горизонтами токенів. У шиншили це було виміряно як 20. У наночаті це, здається, 8!
Коли ми навчимося обчислювати оптимальні моделі, я видалив мінісерію від d10 до d20 — це розміри наночатів, які можуть виконувати 2**19 ~= 0,5 млн пакетних розмірів на вузлі 8XH100 без накопичення градієнтів. Ми отримуємо гарні, неітерсекційні навчальні графіки для кожного розміру моделі.
А потім найцікавіше — пов'язати цю мінісерію v1 з мінісеріями GPT-2 і GPT-3, щоб ми знали, що рухаємося у правильному напрямку. Втрата валідації має багато проблем і не порівнюється, тому замість цього я використовую бал CORE (з статті DCLM). Я розрахував це для GPT-2 і оцінив для GPT-3, що дозволяє нам нарешті чітко поставити nanochat на однакову шкалу:
Загальна вартість цього мінісеріалу становить лише ~$100 (~4 години на 8XH100). Ці експерименти дають нам впевненість, що все працює досить добре, і що якщо ми платимо більше (повернемо ручку), то отримуємо дедалі кращі моделі.
Коротко: ми можемо навчати обчислювати оптимальні мінісерії та пов'язувати їх із GPT-2/3 за допомогою об'єктивних CORE балів, але подальші покращення бажані і необхідні. Наприклад, узгодження GPT-2 наразі потребує ~$500, але, на мою думку, можливо зробити <$100 з додатковою роботою.
Повний допис із набагато детальнішою інформацією тут:
І весь процес налаштування та коду підштовхуються до мастерингу, і люди можуть відтворити це за допомогою scaling_laws .sh мінісерій .sh bash-скриптів.




1,14K
Перший 100% автономний рух від узбережжя до узбережжя на Tesla FSD V14.2! 2 дні 20 годин, 2732 милі, жодних втручань.
Цей випадок особливий, бо рух від узбережжя до узбережжя був головною метою команди автопілотів з самого початку. Багато годин ми витрачали на марафонські сесії перегляду кліпів до пізньої ночі, переглядаючи втручання, намагаючись пройти кілька етапів поїздки з часом — сортування, категоризацію, планування всіх проєктів, щоб скоротити розрив і звести кількість інтервенцій до нуля.
Дивовижно бачити, як система справді досягла успіху, і величезні вітання команді!

David Moss31 груд. 2025 р.
Я з гордістю повідомляю, що успішно завершив перший у світі повністю автономний рух від узбережжя до узбережжя!
Я залишив Tesla Diner у Лос-Анджелесі 2 дні 20 годин тому, а тепер закінчив у Мертл-Біч, Південна Кароліна (2 732,4 милі)
Це було досягнуто з Tesla FSD V14.2 без жодних відключень, навіть для всіх паркувальних пристроїв, включаючи Tesla Superchargers.

430
Найкращі
Рейтинг
Вибране
