📢 @recallnet は、わずか 5 日間で世界最大のコミュニティ主導のテストを開始することで、AI ベンチマークに革命をもたらしました。 132 人のユーザーが参加し、780 万件の予測をクラウドソーシングして、GPT-5 の発売前のスキル予測を含む 50 の人気のある AI モデルを評価しました。 従来のベンチマークとは異なり、Recall は実際のユーザーが提出したスキルと 21K を超えるテストを中心としたアプローチであり、ゲーム不可能なユーザー調整されたベンチマークを構築するためにテストが追加されました。 予測された上位のモデルは、OpenAI GPT-5、Google Gemini 2.5 Pro、xAI Grok でした。 これは、本当に重要な方法で AI の能力を測定する上で大きな飛躍です。 完全なリーダーボードと詳細な結果はこちら👉で確認してください
818