DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Orang-orang berbakat dipromosikan menjadi manajemen. Begitu juga model berbakat. Claude mengelola eksekusi kode. Gemini merutekan permintaan di CRM & obrolan. GPT-5 dapat mengoordinasikan penelitian stok publik. Mengapa sekarang? Akurasi pemanggilan alat melewati ambang batas. Dua tahun lalu, GPT-4 berhasil pada kurang dari 50% tugas pemanggilan fungsi. Model berhalusinasi parameter, disebut titik akhir yang salah, melupakan konteks di tengah percakapan. Saat ini, model SOTA melebihi akurasi 90% pada tolok ukur pemanggilan fungsi. Performa model terbaru, seperti Gemini 3, secara material lebih baik dalam praktiknya daripada yang disarankan oleh tolok ukur.

Apakah kita membutuhkan model triliunan parameter hanya untuk membuat panggilan fungsi? Anehnya, ya. Eksperimen dengan model aksi kecil, jaringan ringan yang dilatih hanya untuk pemilihan alat, gagal dalam produksi. Mereka tidak memiliki pengetahuan dunia. Manajemen, ternyata, membutuhkan konteks. Saat ini, orkestrator sering menelurkan dirinya sendiri sebagai subagen (Claude Code memutar Claude Code lainnya). Simetri ini tidak akan bertahan lama. Pelajaran pahit menegaskan model yang semakin besar harus menangani segalanya. Tetapi ekonomi mendorong mundur: distilasi & penguatan penyempurnaan menghasilkan model 40% lebih kecil & 60% lebih cepat sambil mempertahankan 97% kinerja. Agen khusus dari vendor yang berbeda bermunculan. Model perbatasan menjadi eksekutif, merutekan permintaan lintas spesialis. Spesialis ini bisa menjadi vendor pihak ketiga, semuanya berlomba-lomba untuk menjadi yang terbaik di domain mereka.

34

Teratas

Peringkat

Favorit