Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Andrej Karpathy

Будівля @EurekaLabsAI. Раніше директор AI @ Tesla, команда засновників @ OpenAI, CS231n/PhD @ Stanford. Мені подобається тренувати великі глибокі нейронні мережі.

Новий допис: мінісеріал nanochat v1 Правильний спосіб уявлення про LLM полягає в тому, що ви оптимізуєте не для однієї конкретної моделі, а для сімейства, керованих одним циферблатом (обчислювальним ресурсом, який ви хочете витратити), щоб досягти монотонно кращих результатів. Це дозволяє ретельно вивчати закони масштабування, і врешті-решт саме це дає вам впевненість, що коли ви платите за «великий пробіг», екстраполяція спрацює, і ваші гроші будуть витрачені з користі. Для першого публічного релізу nanochat я зосередився на наскрізному конвеєрі, який керує всіма етапами LLM-конвеєру. Тепер, після кількох YOLO раніше проходження, я повертаюся, щоб допрацювати деякі частини, які я пройшов швидко, починаючи, звісно, з попереднього навчання, яке є і обчислювально важким, і критично важливим як основа інтелекту та знань у цих моделях. Після локального налаштування деяких гіперпараметрів я видалив кілька моделей, які виправляли бюджет FLOPs. (Для кожної цілі FLOPs можна навчати малу модель довго, а велику — короткий час.) Виявляється, наночат підкоряється дуже гарним законам масштабування, фактично відтворюючи графіки паперу Chinchilla: Це лише маленька версія цього сюжету з «Шиншили»: Дуже важливо і обнадійливо, що показник показника N (параметрів) і D (токенів) дорівнює ~=0,5, тож, як у Chinchilla, ми отримуємо одну (незалежну від обчислень) константу, яка пов'язує розмір моделі з навчальними горизонтами токенів. У шиншили це було виміряно як 20. У наночаті це, здається, 8! Коли ми навчимося обчислювати оптимальні моделі, я видалив мінісерію від d10 до d20 — це розміри наночатів, які можуть виконувати 2**19 ~= 0,5 млн пакетних розмірів на вузлі 8XH100 без накопичення градієнтів. Ми отримуємо гарні, неітерсекційні навчальні графіки для кожного розміру моделі. А потім найцікавіше — пов'язати цю мінісерію v1 з мінісеріями GPT-2 і GPT-3, щоб ми знали, що рухаємося у правильному напрямку. Втрата валідації має багато проблем і не порівнюється, тому замість цього я використовую бал CORE (з статті DCLM). Я розрахував це для GPT-2 і оцінив для GPT-3, що дозволяє нам нарешті чітко поставити nanochat на однакову шкалу: Загальна вартість цього мінісеріалу становить лише ~$100 (~4 години на 8XH100). Ці експерименти дають нам впевненість, що все працює досить добре, і що якщо ми платимо більше (повернемо ручку), то отримуємо дедалі кращі моделі. Коротко: ми можемо навчати обчислювати оптимальні мінісерії та пов'язувати їх із GPT-2/3 за допомогою об'єктивних CORE балів, але подальші покращення бажані і необхідні. Наприклад, узгодження GPT-2 наразі потребує ~$500, але, на мою думку, можливо зробити <$100 з додатковою роботою. Повний допис із набагато детальнішою інформацією тут: І весь процес налаштування та коду підштовхуються до мастерингу, і люди можуть відтворити це за допомогою scaling_laws .sh мінісерій .sh bash-скриптів.

Найкращі

Рейтинг

Вибране