熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
📢 @recallnet 透過在短短 5 天內推出全球最大的社群驅動測試,徹底改變了 AI 基準測試。
有 132K 用戶參與,他們眾包了 780 萬個預測,以評估 50 個流行的 AI 模型,包括對 GPT-5 的預發布技能預測。
與傳統基準測試不同,Recall 的方法集中在真實用戶提交的技能上,並新增了 21K 的技能和測試,以建立一個無法被操控的、與用戶對齊的基準。
預測的頂尖模型是 OpenAI GPT-5、Google Gemini 2.5 Pro 和 xAI Grok。
這是在以真正重要的方式衡量 AI 能力方面的一次重大飛躍。
在這裡查看完整的排行榜和詳細結果 👉

739
熱門
排行
收藏