Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Le persone di talento vengono promosse a ruoli di gestione. Lo stesso vale per i modelli di talento. Claude gestisce l'esecuzione del codice. Gemini instrada le richieste attraverso CRM e chat. GPT-5 può coordinare la ricerca di azioni pubbliche.
Perché ora? L'accuratezza delle chiamate agli strumenti ha superato una soglia. Due anni fa, GPT-4 ha avuto successo in meno del 50% dei compiti di chiamata di funzione. I modelli allucinavano parametri, chiamavano endpoint sbagliati, dimenticavano il contesto a metà conversazione. Oggi, i modelli SOTA superano il 90% di accuratezza nei benchmark di chiamata di funzione. Le prestazioni dei modelli più recenti, come Gemini 3, sono materialmente migliori nella pratica rispetto a quanto suggeriscono i benchmark.

Avevamo bisogno di modelli con trilioni di parametri solo per effettuare chiamate a funzioni? Sorprendentemente, sì.
Gli esperimenti con modelli di azione piccoli, reti leggere addestrate solo per la selezione degli strumenti, falliscono in produzione. Mancano di conoscenza del mondo. La gestione, a quanto pare, richiede contesto.
Oggi, l'orchestratore spesso si genera come un sottoagente (Claude Code avvia un altro Claude Code). Questa simmetria non durerà.
La lezione amara insiste che modelli sempre più grandi dovrebbero gestire tutto. Ma l'economia si oppone: la distillazione e il fine-tuning con rinforzo producono modelli più piccoli del 40% e più veloci del 60% mantenendo il 97% delle prestazioni.
Agenti specializzati di diversi fornitori stanno emergendo. Il modello di frontiera diventa l'esecutivo, instradando le richieste tra specialisti. Questi specialisti possono essere fornitori di terze parti, tutti in competizione per essere i migliori nel loro dominio.

50
Principali
Ranking
Preferiti
