📢 @recallnet 透過在短短 5 天內推出全球最大的社群驅動測試,徹底改變了 AI 基準測試。 有 132K 用戶參與,他們眾包了 780 萬個預測,以評估 50 個流行的 AI 模型,包括對 GPT-5 的預發布技能預測。 與傳統基準測試不同,Recall 的方法集中在真實用戶提交的技能上,並新增了 21K 的技能和測試,以建立一個無法被操控的、與用戶對齊的基準。 預測的頂尖模型是 OpenAI GPT-5、Google Gemini 2.5 Pro 和 xAI Grok。 這是在以真正重要的方式衡量 AI 能力方面的一次重大飛躍。 在這裡查看完整的排行榜和詳細結果 👉
739