热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
有才华的人会被提升到管理层。有才华的模型也是如此。Claude 管理代码执行。Gemini 在 CRM 和聊天中路由请求。GPT-5 可以协调公共股票研究。
为什么是现在?工具调用的准确性达到了一个阈值。两年前,GPT-4 在功能调用任务中的成功率不到 50%。模型会幻觉参数,调用错误的端点,在对话中间忘记上下文。今天,最先进的模型在功能调用基准测试中的准确率超过 90%。最近模型的表现,如 Gemini 3,在实践中明显优于基准所暗示的表现。

我们真的需要万亿参数的模型来进行函数调用吗?令人惊讶的是,答案是肯定的。
对小型行动模型的实验,轻量级网络仅为工具选择而训练,在生产中失败。它们缺乏世界知识。事实证明,管理需要上下文。
如今,协调者通常会作为子代理自我生成(Claude Code 启动另一个 Claude Code)。这种对称性不会持久。
这个痛苦的教训坚持认为,越来越大的模型应该处理一切。但经济学却在反击:蒸馏和强化微调产生的模型小40%且速度快60%,同时保留97%的性能。
来自不同供应商的专业代理正在出现。前沿模型成为执行者,负责在专家之间路由请求。这些专家可以是第三方供应商,所有人都在争取成为各自领域的最佳。

79
热门
排行
收藏
