才能ある人は管理職に昇進します。才能あるモデルも同様です。Claudeはコードの実行を管理します。GeminiはリクエストをCRMとチャットでルーティングします。GPT-5は公開株式の調査を調整できます。 なぜ今なの?ツールコールの精度は閾値を超えました。2年前、GPT-4は関数呼び出しタスクの50%未満で成功しました。モデルは誤ったエンドポイントと呼ばれる幻覚パラメータを認識し、会話中に文脈を忘れてしまいました。現在、SOTAモデルは関数呼び出しベンチマークで90%の精度を超えています。ジェミニ3のような最新モデルの性能は、ベンチマークが示すよりも実質的に優れています。
関数呼び出しを行うために兆パラメータモデルが必要だったのでしょうか?驚くべきことに、はい。 小規模なアクションモデルやツール選択専用の軽量ネットワークを用いた実験は、本番環境で失敗します。彼らは世界の知識を欠いています。実は、経営には文脈が必要です。 今日では、オーケストレーターはしばしばサブエージェントとして自らを生み出します(クロードコードが別のクロードコードを起動します)。この対称性は長くは続かない。 苦い教訓は、より大きなモデルがすべてをこなすべきだということを主張しています。しかし経済的な側面からも反発します。蒸留や補強の微調整は、モデルを40%小さく、60%高速にしつつ、97%の性能を保つ結果をもたらします。 異なるベンダーから専門的な代理店が登場しています。フロンティアモデルはエグゼクティブとなり、専門家間でのリクエストをルーティングします。これらの専門家は第三者のベンダーであり、それぞれの分野で最強を目指して競い合っています。
37