СРОЧНО: xAI объявляет о Grok 4 "Он может рассуждать на сверхчеловеческом уровне!" Вот все, что вам нужно знать:
Илон утверждает, что Grok 4 умнее почти всех аспирантов по всем дисциплинам одновременно. В 100 раз больше тренировок, чем в Grok 2. В 10 раз больше вычислительной мощности на RL, чем у любой из существующих моделей.
Выступление на последнем экзамене человечества Илон: «Grok 4 – это аспирантура во всем!»
Масштабирование HLE - Обучение Больше вычислительных ресурсов, больше интеллекта. (без инструментов)
С помощью нативного вызова инструментов Grok 4 значительно увеличивает производительность. Посмотрите на эти кривые! Важно дать ИИ правильные инструменты. Масштабирование очевидно. С ума сойти!
Надежные сигналы являются ключом к успешной работе RL. Существует также проблема данных. Илон: "Конечный тест на рассуждение — это ИИ, работающий в реальности."
Масштабирование вычислительных ресурсов во время тестирования Решено более 50% текстового подмножества задач HLE! Кривые становятся все более нелепыми.
Grok 4 — это версия с одним агентом. Grok 4 Heavy — это версия с несколькими агентами. Мультиагентные системы — это не шутка!
Grok 4 используется для прогнозирования чемпионов Мировой серии в этом году. Это интересные задачи, на которых необходимо протестировать модели рассуждений. На реальных событиях в мире.
Визуализация столкновения двух черных дыр. Grok 4 использует все виды ссылок, таких как статьи, PDF-файлы, рассуждения о деталях моделирования и о том, какие данные следует использовать.
В примере показана сводка по временной шкале/изменениям и объявлениям о счетах в HLE. Это довольно круто!
Мультимодальное исполнение Производительность Grok 4 Heavy выше, чем у Grok 4, но нуждается в доработке. По мнению команды, это одна из слабых сторон.
Производительность в бенчмарках Reasoning. Идеальный результат на AIME25! Скачки сумасшедшие по сравнению с последней лучшей моделью для этих задач.
Где тестировать модели. Доступен как уровень SuperGrok Heavy. $30/м за Super Grok $300/млн за SuperGrok Heavy.
Голосовые обновления тоже включены! Grok кажется более быстрым и более естественным. - В 2 раза быстрее - 5 голосов - 10 секунд в день
АРК-ОИИ Grok 4 на ARC-AGI v2 (частное подмножество) Он преодолевает барьер в 10% (15,9%). В 2 раза второе место, которое занимает модель Claude Opus 4.
Grok 4 на Вендинговой лавочке Grok 4 занимает место #1. Вдвое больше собственного капитала Claude Opus 4.
Модели Grok 4 доступны через API xAI. Контекстное окно 256K. Поиск данных в реальном времени.
Grok 4 для игр! Понимание видео — это область, которую команда улучшает, поэтому она будет становиться лучше.
Что дальше? Умный и быстрый будут в центре внимания. Модели кодирования также находятся в центре внимания. Появляются и более способные мультимодальные агенты. Модели видеогенерации также не за горами.
@elonmusk и команда @xai действительно готовили с Grok 4. Очень интересно видеть, как в дальнейшем основное внимание уделяется искусственному интеллекту для реальности, поиску истины и разблокировке мультимодальных агентов.
Я начал экспериментировать с Grok 4 и уже нашел в нем кое-что интересное. Я готовлю подробное сравнение с другими моделями рассуждения. В ближайшее время я проведу семинар по Grok 4 для членов нашей академии:
2,19M