Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Budowanie za pomocą agentów AI @dair_ai • Prev: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Dzielę się spostrzeżeniami na temat budowania za pomocą LLM i agentów ⬇️ AI
Kolejny świetny post od Anthropic!
Chodzi o poprawę twoich agentów za pomocą ewaluacji.
Oto moje szybkie wnioski z bloga:
Możliwości, które sprawiają, że agenci są użyteczni (autonomia, inteligencja, elastyczność) są tymi samymi, które sprawiają, że trudno je ocenić. Nie możesz po prostu uruchomić testów jednostkowych i oczekiwać, że twoja aplikacja agenta będzie działać.
Ten przewodnik przedstawia praktyczny framework, którego używają deweloperzy Anthropic do ewaluacji agentów.
Wspomnieli o trzech typach oceniających, z których każdy ma swoje wady i zalety:
- Oceniający oparte na kodzie są szybcy, tanio i powtarzalni, ale wrażliwi na ważne wariacje.
- Oceniający oparte na modelach radzą sobie z niuansami i otwartymi zadaniami, ale są niedeterministyczne i wymagają kalibracji przez ludzi.
- Oceniający ludzie są złotym standardem jakości, ale drodzy i wolni.
Mówią również o dwóch kategoriach ewaluacji, które służą różnym celom.
1) Ewaluacje możliwości pytają "co ten agent potrafi dobrze?" i zaczynają się od niskich wskaźników zdawalności.
2) Ewaluacje regresji pytają "czy nadal potrafi obsługiwać wcześniejsze zadania?" i powinny utrzymywać się blisko 100%. Zadania przechodzące z możliwości do regresji reprezentują rzeczywisty postęp.
Dla niedeterministyczności dwa wskaźniki mają znaczenie. pass@k mierzy prawdopodobieństwo przynajmniej jednego sukcesu w k próbach. pass^k mierzy prawdopodobieństwo, że wszystkie k prób zakończą się sukcesem. Te wartości dramatycznie się różnią, przy k=10, pass@k może zbliżyć się do 100%, podczas gdy pass^k spada blisko zera.
Bardzo dobrym tipem w blogach jest rozpoczęcie od 20-50 prostych zadań z rzeczywistych porażek, zamiast czekać na perfekcję. Przekształć ręczne kontrole, które już wykonujesz, w przypadki testowe. Oceniaj wyniki, a nie ścieżki, które zostały podjęte. Uwzględnij częściowe punkty za złożone zadania.
Typowe pułapki to sztywne ocenianie, które karze za równoważne, ale inaczej sformatowane odpowiedzi, niejednoznaczne specyfikacje zadań oraz stochastyczne zadania, które są niemożliwe do powtórzenia.
Gorąco polecam tę lekturę.
Blog:
Naucz się budować skuteczne agenty AI w naszej akademii:

166
Kolejna ogromna aktualizacja od @elevenlabsio!
Właśnie wydali Scribe v2, który wygląda na najdokładniejszy model transkrypcyjny, jaki kiedykolwiek został wydany.
Trudno zignorować te wyniki. Scribe ustanawia nowy standard dokładności.

ElevenLabs22 godz. temu
Dziś wprowadzamy Scribe v2: najdokładniejszy model transkrypcyjny, jaki kiedykolwiek został wydany.
Podczas gdy Scribe v2 Realtime jest zoptymalizowany pod kątem ultra niskiej latencji i zastosowań dla agentów, Scribe v2 jest stworzony do transkrypcji wsadowej, dodawania napisów i tworzenia napisów na dużą skalę.
9
Agenci LLM mają problemy z długimi zadaniami.
Właśnie tutaj inżynieria kontekstu ma naprawdę znaczenie.
Agenci potrafią rozumować i korzystać z narzędzi, ale wydłużone operacje powodują nieograniczony wzrost kontekstu i nagromadzone błędy.
Typowe rozwiązania, takie jak kompresja kontekstu czy wzbogacone o retrieval podpowiadanie, wymuszają kompromisy między wiernością informacji a stabilnością rozumowania.
Nowe badania wprowadzają InfiAgent, ramy, które utrzymują kontekst rozumowania agenta ściśle ograniczony, niezależnie od tego, jak długo trwa zadanie.
Pomysł polega na zewnętrznym przechowywaniu stanu trwałego w abstrakcji opartej na plikach. Zamiast wciskać wszystko w kontekst, agent utrzymuje przestrzeń roboczą plików, które utrzymują się przez kolejne kroki. W każdym punkcie decyzyjnym rekonstruuje kontekst z migawki stanu przestrzeni roboczej oraz stałego okna ostatnich działań.
To oddziela czas trwania zadania od rozmiaru kontekstu. Niezależnie od tego, czy zadanie zajmuje 10 kroków, czy 1000, kontekst rozumowania pozostaje tej samej długości.
To jest korzystne, ponieważ podejście nie wymaga dostosowywania do specyficznych zadań. Agent działa w ten sam sposób, niezależnie od dziedziny.
Eksperymenty na DeepResearch oraz zadaniu przeglądu literatury z 80 pracami pokazują, że InfiAgent z modelem open-source 20B jest konkurencyjny w porównaniu do większych systemów własnościowych. Utrzymuje znacznie wyższe pokrycie długoterminowe niż bazowe modele skoncentrowane na kontekście.
Przegląd literatury z 80 pracami jest szczególnie wymowny. To dokładnie ten rodzaj wydłużonego zadania, w którym tradycyjni agenci gromadzą błędy i tracą ślad tego, co zrobiły. Zewnętrzne przechowywanie stanu InfiAgent zapobiega tej degradacji.
Artykuł:
Naucz się budować skuteczne agenty AI w naszej akademii:

39
Najlepsze
Ranking
Ulubione
