Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Bygge med AI-agenter @dair_ai • Forrige: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Jeg deler innsikt om hvordan du bygger med LLM-er og AI-agenter ⬇️
Enda et fantastisk innlegg fra Anthropic!
Det handler om å forbedre agentene dine gjennom evalueringer.
Her er mine raske innsikter fra bloggen:
Evnene som gjør agenter nyttige (autonomi, intelligens, fleksibilitet) er de samme som gjør dem vanskelige å evaluere. Du kan ikke bare kjøre enhetstester og forvente at agentic-appen din skal fungere.
Denne guiden forklarer det praktiske rammeverket Anthropic-utviklere bruker for agentvurderinger.
De nevnte tre typer vurderere, hver med sine avveininger:
- Kodebaserte grader er raske, billige og reproduserbare, men sprø til gyldige varianter.
- Modellbaserte vurderere håndterer nyanser og åpne oppgaver, men er ikke-deterministiske og krever menneskelig kalibrering.
- Menneskegrader er av gullstandardkvalitet, men dyre og trege.
De snakker også om to kategorier evalueringer som tjener ulike formål.
1) Evnevurderinger spør «hva kan denne agenten gjøre?» og starter med lave beståttprosenter.
2) Regresjonsvurderinger spør «kan den fortsatt håndtere tidligere oppgaver?» og bør holde seg nær 100%. Oppgaver som går fra evne til regresjon representerer reell fremgang.
For ikke-determinisme er to måleparametere viktige. pass@k måler sannsynligheten for minst én suksess i k forsøk. pass^k måler sannsynligheten for at alle k forsøk lykkes. Disse divergerer dramatisk, ved k=10, kan pass@k nærme seg 100 % mens pass^k faller nær null.
Et veldig godt tips i bloggene er å starte med 20-50 enkle oppgaver fra ekte feil i stedet for å vente på perfeksjon. Konverter manuelle kontroller du allerede utfører til testtilfeller. Karakterresultater, ikke veier som er valgt. Inkluder delvis poeng for komplekse oppgaver.
Vanlige fallgruver inkluderer rigid vurdering som straffer tilsvarende men annerledes formaterte svar, tvetydige oppgavespesifikasjoner og stokastiske oppgaver som er umulige å gjenskape.
Jeg anbefaler denne boken på det sterkeste.
Blogg:
Lær å bygge effektive AI-agenter i vår akademi:

169
Enda en stor frigjøring fra @elevenlabsio!
De har nettopp lansert Scribe v2, som ser ut til å være den mest nøyaktige transkripsjonsmodellen som noen gang er utgitt.
Vanskelig å ignorere disse referansene. Scribe setter en ny nøyaktighetsstandard.

ElevenLabs23 timer siden
I dag introduserer vi Scribe v2: den mest nøyaktige transkripsjonsmodellen som noen gang er utgitt.
Mens Scribe v2 Realtime er optimalisert for ultralav latens og agenters brukstilfeller, er Scribe v2 bygget for batchtranskripsjon, underteksting og teksting i stor skala.
12
LLM-agenter bryter sammen på lange oppgaver.
Det er her kontekstteknikk virkelig betyr noe.
Agenter kan resonnere og bruke verktøy, men utvidede operasjoner fører til ubegrenset kontekstvekst og akkumulert feil.
Vanlige løsninger som kontekstkomprimering eller avveininger mellom informasjonsnøyaktighet og resonnementstabilitet med hentingsforsterket prompting.
Denne nye forskningen introduserer InfiAgent, et rammeverk som holder agentens resonnementskontekst strengt begrenset uansett hvor lenge oppgaven varer.
Ideen er å eksternalisere vedvarende tilstand inn i en fil-sentrert abstraksjon. I stedet for å presse alt inn i kontekst, opprettholder agenten et arbeidsområde med filer som vedvarer på tvers av trinn. Ved hvert beslutningspunkt rekonstruerer den kontekst fra et øyeblikksbilde av arbeidsområdets tilstand pluss et fast vindu med nylige handlinger.
Dette frikobler oppgavens varighet fra kontekststørrelsen. Enten oppgaven tar 10 steg eller 1000, forblir resonnementets kontekst den samme lengden.
Dette er fint fordi tilnærmingen ikke krever oppgavespesifikk finjustering. Agenten opererer på samme måte uavhengig av domene.
Eksperimenter på DeepResearch og en litteraturgjennomgang med 80 artikler viser at InfiAgent med en 20B åpen kildekode-modell er konkurransedyktig med større proprietære systemer. Den opprettholder betydelig høyere langsiktig dekning enn kontekstsentrerte baselines.
Den 80 artikler lange litteraturgjennomgangen er spesielt talende. Det er akkurat den typen langvarige oppgaver hvor tradisjonelle agenter samler opp feil og mister oversikten over hva de har gjort. InfiAgents filbaserte tilstandseksternalisering forhindrer denne forringelsen.
Artikkel:
Lær å bygge effektive AI-agenter i vår akademi:

42
Topp
Rangering
Favoritter
