📢 @recallnet 通过在短短 5 天内推出全球最大的社区驱动测试,彻底改变了 AI 基准测试。 参与的用户达到 132K,他们众包了 780 万个预测,以评估 50 个流行的 AI 模型,包括对 GPT-5 的预发布技能预测。 与传统基准测试不同,Recall 的方法集中在真实用户提交的技能上,添加了超过 21K 的技能和测试,以建立一个无法被游戏化的、与用户对齐的基准。 预测的顶级模型是 OpenAI GPT-5、Google Gemini 2.5 Pro 和 xAI Grok。 这是在以真正重要的方式衡量 AI 能力方面的一次重大飞跃。 在这里查看完整的排行榜和详细结果 👉
740