Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Membangun dengan agen AI @dair_ai • Prev: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Saya berbagi wawasan tentang cara membangun dengan LLM & AI Agents ⬇️
Postingan banger lainnya dari Anthropic!
Ini semua tentang meningkatkan agen Anda melalui eval.
Berikut adalah poin cepat saya dari blog:
Kemampuan yang membuat agen berguna (otonomi, kecerdasan, fleksibilitas) adalah kemampuan yang sama yang membuat mereka sulit untuk dievaluasi. Anda tidak bisa begitu saja menjalankan pengujian unit dan mengharapkan aplikasi agen Anda berfungsi.
Panduan ini menguraikan kerangka kerja praktis yang digunakan pengembang Antropik untuk evalan agen.
Mereka menyebutkan tiga jenis penilai, masing-masing dengan trade-off:
- Grader berbasis kode cepat, murah, dan dapat direproduksi, tetapi rapuh untuk variasi yang valid.
- Grader berbasis model menangani tugas bernuansa dan terbuka, tetapi tidak deterministik dan memerlukan kalibrasi manusia.
- Grader manusia memiliki kualitas standar emas, tetapi mahal dan lambat.
Mereka juga berbicara tentang dua kategori eval yang melayani tujuan yang berbeda.
1) Kemampuan bertanya "apa yang bisa dilakukan agen ini dengan baik?" dan mulai dengan tingkat kelulusan rendah.
2) Regresi bertanya "masih bisakah menangani tugas sebelumnya?" dan harus tetap mendekati 100%. Tugas yang lulus dari kemampuan ke regresi mewakili kemajuan nyata.
Untuk non-determinisme, dua metrik penting. pass@k mengukur probabilitas setidaknya satu keberhasilan dalam k upaya. Lulus^k mengukur probabilitas bahwa semua percobaan k berhasil. Ini menyimpang secara dramatis, pada k = 10, pass@k dapat mendekati 100% sementara lulus ^ k turun ke dekat nol.
Tip yang sangat bagus di blog adalah memulai dengan 20-50 tugas sederhana dari kegagalan nyata daripada menunggu kesempurnaan. Ubah pemeriksaan manual yang sudah Anda lakukan menjadi kasus pengujian. Keluaran nilai, bukan jalur yang diambil. Sertakan kredit parsial untuk tugas-tugas kompleks.
Jebakan umum termasuk penilaian kaku yang menghukum jawaban yang setara tetapi diformat berbeda, spesifikasi tugas yang ambigu, dan tugas stokastik yang tidak mungkin direproduksi.
Saya sangat merekomendasikan bacaan ini.
Blog:
Pelajari cara membangun agen AI yang efektif di akademi kami:

154
Rilis besar lainnya dari @elevenlabsio!
Mereka baru saja merilis Scribe v2, yang terlihat seperti model transkripsi paling akurat yang pernah dirilis.
Sulit untuk mengabaikan tolok ukur ini. Scribe menetapkan standar akurasi baru.

ElevenLabs11 jam lalu
Hari ini kami memperkenalkan Scribe v2: model transkripsi paling akurat yang pernah dirilis.
Meskipun Scribe v2 Realtime dioptimalkan untuk latensi ultra rendah dan kasus penggunaan agen, Scribe v2 dibuat untuk transkripsi batch, subtitle, dan teks dalam skala besar.
6
Agen LLM memecah tugas yang panjang.
Di sinilah rekayasa konteks benar-benar penting.
Agen dapat bernalar dan menggunakan alat, tetapi operasi yang diperpanjang menyebabkan pertumbuhan konteks yang tidak terbatas dan akumulasi kesalahan.
Perbaikan umum seperti kompresi konteks atau pengorbanan kekuatan dorong yang ditambah pengambilan antara ketepatan informasi dan stabilitas penalaran.
Penelitian baru ini memperkenalkan InfiAgent, kerangka kerja yang menjaga konteks penalaran agen tetap terbatas secara ketat terlepas dari berapa lama tugas berjalan.
Idenya adalah eksternalisasi keadaan persisten ke dalam abstraksi file-sentris. Alih-alih menjejalkan semuanya ke dalam konteks, agen mempertahankan ruang kerja file yang bertahan di seluruh langkah. Pada setiap titik keputusan, ini merekonstruksi konteks dari rekam jepret status ruang kerja ditambah jendela tetap tindakan terbaru.
Ini memisahkan durasi tugas dari ukuran konteks. Apakah tugas mengambil 10 langkah atau 1000, konteks penalaran tetap sama.
Ini bagus karena pendekatannya tidak memerlukan penyempurnaan khusus tugas. Agen beroperasi dengan cara yang sama terlepas dari domainnya.
Eksperimen pada DeepResearch dan tugas tinjauan literatur 80 makalah menunjukkan bahwa InfiAgent dengan model sumber terbuka 20B bersaing dengan sistem kepemilikan yang lebih besar. Ini mempertahankan cakupan cakrawala panjang yang jauh lebih tinggi daripada garis dasar konteks-sentris.
Tinjauan literatur 80 makalah sangat menceritakan. Itulah jenis tugas yang diperpanjang di mana agen tradisional mengumpulkan kesalahan dan kehilangan jejak apa yang telah mereka lakukan. Eksternalisasi status berbasis file InfiAgent mencegah degradasi ini.
Kertas:
Pelajari cara membangun agen AI yang efektif di akademi kami:

35
Teratas
Peringkat
Favorit
