Talentierte Menschen werden in das Management befördert. Das gilt auch für talentierte Modelle. Claude verwaltet die Codeausführung. Gemini leitet Anfragen über CRM und Chat weiter. GPT-5 kann öffentliche Aktienforschung koordinieren. Warum jetzt? Die Genauigkeit der Tool-Aufrufe hat einen Schwellenwert überschritten. Vor zwei Jahren hatte GPT-4 bei weniger als 50 % der Funktionsaufrufaufgaben Erfolg. Modelle halluzinierten Parameter, riefen falsche Endpunkte auf und vergaßen den Kontext mitten im Gespräch. Heute übertreffen SOTA-Modelle die 90 % Genauigkeit bei Funktionsaufrufbenchmarks. Die Leistung der neuesten Modelle, wie Gemini 3, ist in der Praxis erheblich besser, als die Benchmarks vermuten lassen.
Brauchten wir Billionen-Parameter-Modelle nur, um Funktionsaufrufe zu tätigen? Überraschenderweise ja. Experimente mit kleinen Aktionsmodellen, leichten Netzwerken, die nur für die Auswahl von Werkzeugen trainiert wurden, scheitern in der Produktion. Ihnen fehlt das Weltwissen. Management erfordert, wie sich herausstellt, Kontext. Heute erzeugt der Orchestrator oft sich selbst als Subagent (Claude Code startet einen weiteren Claude Code). Diese Symmetrie wird nicht von Dauer sein. Die bittere Lektion besteht darin, dass immer größere Modelle alles handhaben sollten. Aber die Wirtschaft drängt zurück: Destillation und verstärkendes Feintuning produzieren Modelle, die 40 % kleiner und 60 % schneller sind, während sie 97 % der Leistung beibehalten. Spezialisierte Agenten von verschiedenen Anbietern tauchen auf. Das Grenzmodell wird zum Exekutivmodell, das Anfragen über Spezialisten leitet. Diese Spezialisten können Drittanbieter sein, die alle darum wetteifern, in ihrem Bereich die Besten zu sein.
49