热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
突发消息:xAI 宣布 Grok 4
“它可以在超人水平上推理!”
这里是你需要知道的一切:

Elon 声称 Grok 4 同时比所有学科的几乎所有研究生都聪明。
培训量是 Grok 2 的 100 倍。
RL 上的计算量是现有任何模型的 10 倍。

人类最后一次考试的表现
埃隆:“Grok 4 在所有方面都是研究生水平!

缩放 HLE - 训练
更多的计算,更高的智能。
(无工具)

通过原生工具调用,Grok 4 显著提高了性能。
看看这些曲线!
给 AI 提供正确的工具是很重要的。扩展性很明显。太疯狂了!

可靠的信号是使RL有效的关键。
数据仍然是一个挑战。
埃隆:"终极推理测试是AI在现实中运作。"
缩放测试时计算
超过 50% 的 HLE 问题的纯文本子集已解决!
曲线越来越荒谬。

Grok 4 是单代理版本。
Grok 4 Heavy 是多代理版本。
多代理系统可不是开玩笑的!

Grok 4 正在被用来预测今年的世界系列赛冠军。
这些是推理模型需要测试的有趣任务,涉及实际的现实世界事件。

两个黑洞碰撞的可视化。
Grok 4 使用各种参考资料,如论文、阅读 PDF、有关模拟细节的原因以及要使用的数据。

此示例显示了 HLE 中时间线/更改和分数公告的摘要。
这很酷!

多模态性能
Grok 4 Heavy 性能高于 Grok 4,但需要进一步改进。据该团队称,这是弱点之一。

推理基准测试的性能。
AIME25满分!
与这些任务的最后一个最佳模型相比,飞跃是疯狂的。

在哪里测试模型。
作为 SuperGrok Heavy 层提供。
Super Grok 30 美元/月
SuperGrok Heavy 300 美元/分钟。

还包括语音更新!
Grok 感觉更活泼,设计更自然。
- 快 2 倍
- 5 种声音
- 10 倍每日用户秒数

弧-AGI
ARC-AGI v2 上的 Grok 4(私有子集)
它突破了 10% 的关口 (15.9%)。
第二名是 Claude Opus 4 型号的 2 倍。

自动售货台上的 Grok 4
Grok 4 获得 #1 位置。
Claude Opus 4 净资产的两倍。

Grok 4 模型可通过 xAI API 获取。
256K 上下文窗口。
实时数据搜索。

Grok 4 游戏!
视频理解是团队正在改进的一个领域,因此它会变得更好。

下一步是什么?
智能和快速将是焦点。
编码模型也是一个很大的关注点。
更有能力的多模态代理也即将到来。
视频生成模型也即将出现。

@elonmusk和@xai团队真的用 Grok 4 做饭了。看到接下来专注于人工智能的现实、寻求真相和解锁多模态代理,这一切都非常令人兴奋。
我开始尝试 Grok 4,我已经发现了一些有趣的东西。
我正在准备与其他推理模型的详细比较。
我将很快为我们的学院成员举办一个关于 Grok 4 的研讨会:

2.19M
热门
排行
收藏