Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Новая запись: мини-сериал nanochat v1
Правильный способ думать о LLM заключается в том, что вы не оптимизируете для одной конкретной модели, а для семейства моделей, управляемых одним регулятором (вычисления, которые вы хотите потратить), чтобы достичь монотонно лучших результатов. Это позволяет вам проводить тщательные исследования законов масштабирования, и в конечном итоге это дает вам уверенность в том, что когда вы платите за "большой запуск", экстраполяция сработает, и ваши деньги будут потрачены с пользой. Для первого публичного релиза nanochat я сосредоточился на конвейере от начала до конца, который запускает весь конвейер LLM со всеми его этапами. Теперь, после нескольких запусков YOLO, я возвращаюсь, чтобы доработать некоторые части, которые я прошел быстро, начиная, конечно, с предварительного обучения, которое является как вычислительно тяжелым, так и критически важным как основа интеллекта и знаний в этих моделях.
После локальной настройки некоторых гиперпараметров я протестировал ряд моделей, фиксируя бюджет FLOPs. (Для каждой цели FLOPs вы можете обучить небольшую модель долгое время или большую модель за короткое время.) Оказалось, что nanochat подчиняется очень хорошим законам масштабирования, в основном воспроизводя графики из статьи Chinchilla:
Что является просто детской версией этого графика из Chinchilla:
Очень важно и обнадеживающе, что показатель N (параметры) и D (токены) равен примерно 0.5, так что, как и в Chinchilla, мы получаем одну (независимую от вычислений) константу, которая связывает размер модели с горизонтом обучения токенов. В Chinchilla это было измерено как 20. В nanochat, похоже, это 8!
Как только мы сможем обучить вычислительно оптимальные модели, я протестировал мини-сериал от d10 до d20, которые являются размерами nanochat, способными обрабатывать 2**19 ~= 0.5M размер партий на узле 8XH100 без накопления градиентов. Мы получаем красивые, не пересекающиеся графики обучения для каждого размера модели.
Затем интересная часть заключается в том, чтобы связать этот мини-сериал v1 с мини-сериалами GPT-2 и GPT-3, чтобы мы знали, что движемся в правильном направлении. Потеря валидации имеет много проблем и не сопоставима, поэтому вместо этого я использую оценку CORE (из статьи DCLM). Я рассчитал ее для GPT-2 и оценил для GPT-3, что позволяет нам наконец красиво сопоставить nanochat на одной шкале:
Общая стоимость этого мини-сериала составляет всего ~$100 (~4 часа на 8XH100). Эти эксперименты дают нам уверенность в том, что все работает довольно хорошо, и что если мы заплатим больше (повернем регулятор), мы получим все более лучшие модели.
Кратко: мы можем обучать вычислительно оптимальные мини-сериалы и связывать их с GPT-2/3 через объективные оценки CORE, но дальнейшие улучшения желательны и необходимы. Например, соответствие GPT-2 в настоящее время требует ~$500, но, на мой взгляд, это должно быть возможно сделать за <$100 с дополнительной работой.
Полная запись с гораздо большим количеством деталей здесь:
И вся настройка и код загружены в мастер, и люди могут воспроизвести это с помощью скриптов bash scaling_laws .sh и miniseries .sh.




Топ
Рейтинг
Избранное
