热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
📢 @recallnet 通过在短短 5 天内推出全球最大的社区驱动测试,彻底改变了 AI 基准测试。
参与的用户达到 132K,他们众包了 780 万个预测,以评估 50 个流行的 AI 模型,包括对 GPT-5 的预发布技能预测。
与传统基准测试不同,Recall 的方法集中在真实用户提交的技能上,添加了超过 21K 的技能和测试,以建立一个无法被游戏化的、与用户对齐的基准。
预测的顶级模型是 OpenAI GPT-5、Google Gemini 2.5 Pro 和 xAI Grok。
这是在以真正重要的方式衡量 AI 能力方面的一次重大飞跃。
在这里查看完整的排行榜和详细结果 👉

740
热门
排行
收藏