突发消息:xAI 宣布 Grok 4 “它可以在超人水平上推理!” 这里是你需要知道的一切:
Elon 声称 Grok 4 同时比所有学科的几乎所有研究生都聪明。 培训量是 Grok 2 的 100 倍。 RL 上的计算量是现有任何模型的 10 倍。
人类最后一次考试的表现 埃隆:“Grok 4 在所有方面都是研究生水平!
缩放 HLE - 训练 更多的计算,更高的智能。 (无工具)
通过原生工具调用,Grok 4 显著提高了性能。 看看这些曲线! 给 AI 提供正确的工具是很重要的。扩展性很明显。太疯狂了!
可靠的信号是使RL有效的关键。 数据仍然是一个挑战。 埃隆:"终极推理测试是AI在现实中运作。"
缩放测试时计算 超过 50% 的 HLE 问题的纯文本子集已解决! 曲线越来越荒谬。
Grok 4 是单代理版本。 Grok 4 Heavy 是多代理版本。 多代理系统可不是开玩笑的!
Grok 4 正在被用来预测今年的世界系列赛冠军。 这些是推理模型需要测试的有趣任务,涉及实际的现实世界事件。
两个黑洞碰撞的可视化。 Grok 4 使用各种参考资料,如论文、阅读 PDF、有关模拟细节的原因以及要使用的数据。
此示例显示了 HLE 中时间线/更改和分数公告的摘要。 这很酷!
多模态性能 Grok 4 Heavy 性能高于 Grok 4,但需要进一步改进。据该团队称,这是弱点之一。
推理基准测试的性能。 AIME25满分! 与这些任务的最后一个最佳模型相比,飞跃是疯狂的。
在哪里测试模型。 作为 SuperGrok Heavy 层提供。 Super Grok 30 美元/月 SuperGrok Heavy 300 美元/分钟。
还包括语音更新! Grok 感觉更活泼,设计更自然。 - 快 2 倍 - 5 种声音 - 10 倍每日用户秒数
弧-AGI ARC-AGI v2 上的 Grok 4(私有子集) 它突破了 10% 的关口 (15.9%)。 第二名是 Claude Opus 4 型号的 2 倍。
自动售货台上的 Grok 4 Grok 4 获得 #1 位置。 Claude Opus 4 净资产的两倍。
Grok 4 模型可通过 xAI API 获取。 256K 上下文窗口。 实时数据搜索。
Grok 4 游戏! 视频理解是团队正在改进的一个领域,因此它会变得更好。
下一步是什么? 智能和快速将是焦点。 编码模型也是一个很大的关注点。 更有能力的多模态代理也即将到来。 视频生成模型也即将出现。
@elonmusk和@xai团队真的用 Grok 4 做饭了。看到接下来专注于人工智能的现实、寻求真相和解锁多模态代理,这一切都非常令人兴奋。
我开始尝试 Grok 4,我已经发现了一些有趣的东西。 我正在准备与其他推理模型的详细比较。 我将很快为我们的学院成员举办一个关于 Grok 4 的研讨会:
2.19M