有才华的人会被提升到管理层。有才华的模型也是如此。Claude 管理代码执行。Gemini 在 CRM 和聊天中路由请求。GPT-5 可以协调公共股票研究。 为什么是现在?工具调用的准确性达到了一个阈值。两年前,GPT-4 在功能调用任务中的成功率不到 50%。模型会幻觉参数,调用错误的端点,在对话中间忘记上下文。今天,最先进的模型在功能调用基准测试中的准确率超过 90%。最近模型的表现,如 Gemini 3,在实践中明显优于基准所暗示的表现。
我们真的需要万亿参数的模型来进行函数调用吗?令人惊讶的是,答案是肯定的。 对小型行动模型的实验,轻量级网络仅为工具选择而训练,在生产中失败。它们缺乏世界知识。事实证明,管理需要上下文。 如今,协调者通常会作为子代理自我生成(Claude Code 启动另一个 Claude Code)。这种对称性不会持久。 这个痛苦的教训坚持认为,越来越大的模型应该处理一切。但经济学却在反击:蒸馏和强化微调产生的模型小40%且速度快60%,同时保留97%的性能。 来自不同供应商的专业代理正在出现。前沿模型成为执行者,负责在专家之间路由请求。这些专家可以是第三方供应商,所有人都在争取成为各自领域的最佳。
79