一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

有才华的人会被提升到管理层。有才华的模型也是如此。Claude 管理代码执行。Gemini 在 CRM 和聊天中路由请求。GPT-5 可以协调公共股票研究。为什么是现在？工具调用的准确性达到了一个阈值。两年前，GPT-4 在功能调用任务中的成功率不到 50%。模型会幻觉参数，调用错误的端点，在对话中间忘记上下文。今天，最先进的模型在功能调用基准测试中的准确率超过 90%。最近模型的表现，如 Gemini 3，在实践中明显优于基准所暗示的表现。

我们真的需要万亿参数的模型来进行函数调用吗？令人惊讶的是，答案是肯定的。对小型行动模型的实验，轻量级网络仅为工具选择而训练，在生产中失败。它们缺乏世界知识。事实证明，管理需要上下文。如今，协调者通常会作为子代理自我生成（Claude Code 启动另一个 Claude Code）。这种对称性不会持久。这个痛苦的教训坚持认为，越来越大的模型应该处理一切。但经济学却在反击：蒸馏和强化微调产生的模型小40%且速度快60%，同时保留97%的性能。来自不同供应商的专业代理正在出现。前沿模型成为执行者，负责在专家之间路由请求。这些专家可以是第三方供应商，所有人都在争取成为各自领域的最佳。

79