Las personas talentosas son promovidas a la gestión. También lo son los modelos talentosos. Claude gestiona la ejecución de código. Gemini enruta solicitudes a través de CRM y chat. GPT-5 puede coordinar la investigación de acciones públicas. ¿Por qué ahora? La precisión en la llamada de herramientas ha cruzado un umbral. Hace dos años, GPT-4 tuvo éxito en menos del 50% de las tareas de llamada de funciones. Los modelos alucinaban parámetros, llamaban a puntos finales incorrectos, olvidaban el contexto a mitad de la conversación. Hoy, los modelos SOTA superan el 90% de precisión en los benchmarks de llamadas de funciones. El rendimiento de los modelos más recientes, como Gemini 3, es materialmente mejor en la práctica de lo que sugieren los benchmarks.
¿Necesitábamos modelos de un billón de parámetros solo para hacer llamadas a funciones? Sorprendentemente, sí. Los experimentos con modelos de acción pequeños, redes ligeras entrenadas solo para la selección de herramientas, fallan en producción. Carecen de conocimiento del mundo. La gestión, resulta, requiere contexto. Hoy en día, el orquestador a menudo se genera a sí mismo como un subagente (Claude Code inicia otro Claude Code). Esta simetría no durará. La amarga lección insiste en que modelos cada vez más grandes deberían manejar todo. Pero la economía se opone: la destilación y el ajuste fino por refuerzo producen modelos un 40% más pequeños y un 60% más rápidos mientras retienen el 97% del rendimiento. Están surgiendo agentes especializados de diferentes proveedores. El modelo fronterizo se convierte en el ejecutivo, dirigiendo solicitudes entre especialistas. Estos especialistas pueden ser proveedores externos, todos compitiendo por ser los mejores en su dominio.
73