DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Talangfulla personer blir befordrade till chefer. Det gör talangfulla modeller också. Claude hanterar kodexekveringen. Gemini skickar förfrågningar över CRM och chatt. GPT-5 kan samordna forskning om offentliga aktier. Varför just nu? Verktygsanropsnoggrannheten överskred en gräns. För två år sedan lyckades GPT-4 med färre än 50 % av funktionerna som anropade funktioner. Modeller hallucinerade parametrar, kallade fel ändpunkter, glömde kontext mitt i samtalet. Idag överstiger SOTA-modeller 90 % noggrannhet på funktionsanropande benchmarks. Prestandan hos de senaste modellerna, som Gemini 3, är i praktiken avsevärt bättre än vad benchmarkarna antyder.

Behövde vi modeller med biljoner parametrar bara för att kunna göra funktionsanrop? Överraskande nog, ja. Experiment med små actionmodeller, lättviktsnätverk som endast tränas för verktygsval, misslyckas i produktion. De saknar världskunskap. Det visar sig att hanteringen kräver kontext. Idag uppstår ofta orkestratorn som en subagent (Claude Code startar en annan Claude Code). Denna symmetri kommer inte att vara för evigt. Den bittra lärdomen insisterar på att allt större modeller ska klara allt. Men ekonomin sätter sig bak: finjustering av destillation och förstärkning ger modellerna 40 % mindre och 60 % snabbare samtidigt som 97 % av prestandan behålls. Specialiserade agenter från olika leverantörer dyker upp. Frontier-modellen blir den verkställande och dirigerar förfrågningar mellan specialister. Dessa specialister kan vara tredjepartsleverantörer, alla tävlar om att vara bäst inom sitt område.

76

Topp

Rankning

Favoriter