Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Construirea cu agenți AI @dair_ai • Prev: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Împărtășesc informații despre cum să construiesc cu LLM-uri și agenți ⬇️ AI
Încă o postare grozavă de la Anthropic!
Totul ține de a-ți îmbunătăți agenții prin evaluări.
Iată concluziile mele rapide de pe blog:
Capabilitățile care fac agenții utili (autonomie, inteligență, flexibilitate) sunt aceleași care îi fac greu de evaluat. Nu poți doar să rulezi teste unitare și să te aștepți ca aplicația ta agentic să funcționeze.
Acest ghid explică cadrul practic pe care dezvoltatorii antropici îl folosesc pentru evaluările agenților.
Au menționat trei tipuri de evaluatori, fiecare cu compromisuri:
- Gradatoarele bazate pe cod sunt rapide, ieftine și reproductibile, dar fragile la variații valide.
- Evaluatorii bazați pe modele gestionează nuanțe și sarcini deschise, dar sunt nedeterministi și necesită calibrare umană.
- Clasificatoarele umane sunt de calitate standard de aur, dar scumpe și lente.
De asemenea, vorbesc despre două categorii de evaluări care servesc scopuri diferite.
1) Evaluările de capabilități întreabă "ce poate face bine acest agent?" și încep cu rate mici de promovare.
2) Evaluările de regresie întreabă "mai poate face față sarcinilor anterioare?" și ar trebui să rămână aproape de 100%. Sarcinile care trec de la capacitate la regresie reprezintă un progres real.
Pentru non-determinism, două metrici contează. pass@k măsoară probabilitatea de cel puțin o reușită în k încercări. pass^k măsoară probabilitatea ca toate cele k încercări să reușească. Acestea diverg dramatic, la k=10, pass@k poate ajunge la 100%, în timp ce pass^k scade aproape de zero.
Un sfat foarte bun în bloguri este să începi cu 20-50 de sarcini simple, pornind de la eșecuri reale, în loc să aștepți perfecțiunea. Transformă verificările manuale pe care le faci deja în cazuri de testare. Rezultate de calificare, nu căi alese. Include credit parțial pentru sarcini complexe.
Capcanele comune includ notarea rigidă care penalizează răspunsurile echivalente, dar formatate diferit, specificațiile ambigue ale sarcinilor și sarcinile stocastice imposibil de reprodus.
Recomand cu căldură această lectură.
Blog:
Învață să construiești agenți AI eficienți în academia noastră:

167
Încă o eliberare uriașă din @elevenlabsio!
Tocmai au lansat Scribe v2, care pare a fi cel mai precis model de transcriere lansat vreodată.
Este greu să ignori aceste repere. Scribe stabilește un nou standard de acuratețe.

ElevenLabsCu 23 de ore în urmă
Astăzi prezentăm Scribe v2: cel mai precis model de transcriere lansat vreodată.
În timp ce Scribe v2 Realtime este optimizat pentru cazuri de utilizare cu latență ultra scăzută și agenți, Scribe v2 este construit pentru transcriere în lot, subtitrare și subtitrări la scară largă.
10
Agenții LLM se descompun în sarcini lungi.
Aici contează cu adevărat ingineria contextului.
Agenții pot raționa și folosi unelte, dar operațiunile extinse cauzează o creștere nelimitată a contextului și erori acumulate.
Soluții comune precum compresia contextului sau forța de stimulare augmentată prin recuperare reprezintă compromisuri între fidelitatea informației și stabilitatea raționamentului.
Această nouă cercetare introduce InfiAgent, un cadru care menține contextul raționamental al agentului strict limitat, indiferent cât durează sarcina.
Ideea este externalizarea stării persistente într-o abstracție centrată pe fișier. În loc să înghesuie totul în context, agentul menține un spațiu de lucru cu fișiere care persistă pe pași. La fiecare punct de decizie, reconstruiește contextul dintr-o instantanee a stării spațiului de lucru plus o fereastră fixă de acțiuni recente.
Aceasta decuplează durata sarcinii de dimensiunea contextului. Indiferent dacă sarcina durează 10 sau 1000 de pași, contextul de raționament rămâne la fel.
Acest lucru este util pentru că abordarea nu necesită ajustări fine specifice unei sarcini. Agentul funcționează la fel, indiferent de domeniu.
Experimentele pe DeepResearch și o sarcină de revizuire a literaturii de 80 de articole arată că InfiAgent cu un model open-source de 20B este competitiv cu sistemele proprietare mai mari. Menține o acoperire mult mai mare pe orizontul lung decât liniile de bază centrate pe context.
Revizuirea literaturii de 80 de lucrări este deosebit de relevantă. Acesta este exact genul de sarcină extinsă în care agenții tradiționali acumulează erori și pierd firul a ceea ce au făcut. Externalizarea stării bazate pe fișiere a InfiAgent previne această degradare.
Hârtie:
Învață să construiești agenți AI eficienți în academia noastră:

40
Limită superioară
Clasament
Favorite
