Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Construindo com agentes de IA @dair_ai • Anterior: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Compartilho insights sobre como construir com LLMs e agentes de ⬇️ IA
Mais um post incrível da Anthropic!
Tudo se resume a melhorar seus agentes por meio de avaliações.
Aqui estão minhas lições rápidas do blog:
As capacidades que tornam os agentes úteis (autonomia, inteligência, flexibilidade) são as mesmas que os tornam difíceis de avaliar. Você não pode simplesmente rodar testes unitários e esperar que seu aplicativo agentique funcione.
Este guia explica a estrutura prática que os desenvolvedores antrópicos usam para avaliações de agentes.
Eles mencionaram três tipos de avaliadores, cada um com concessões:
- As avaliadoras baseadas em código são rápidas, baratas e reproduzíveis, mas frágeis a variações válidas.
- Avaliadores baseados em modelos lidam com nuances e tarefas abertas, mas são não determinísticos e exigem calibração humana.
- As classificadoras humanas são de qualidade padrão-ouro, mas caras e lentas.
Eles também falam sobre duas categorias de avaliações que servem a propósitos diferentes.
1) Avaliações de capacidade perguntam "o que esse agente pode fazer bem?" e começam com taxas de aprovação baixas.
2) As avaliações de regressão perguntam "ainda consegue lidar com tarefas anteriores?" e devem permanecer próximos a 100%. Tarefas que passam de capacidade para regressão representam progresso real.
Para o não-determinismo, duas métricas importam. pass@k mede a probabilidade de pelo menos uma vez em k tentativas. pass^k mede a probabilidade de que todos os k testes tenham sucesso. Esses divergem dramaticamente, em k=10, pass@k podem se aproximar de 100% enquanto pass^k cai para quase zero.
Uma dica muito boa nos blogs é começar com 20-50 tarefas simples vindas de fracassos reais, em vez de esperar pela perfeição. Converta as verificações manuais que você já realiza em casos de teste. Resultados de grau, não caminhos seguidos. Inclua crédito parcial para tarefas complexas.
Armadilhas comuns incluem correções rígidas que penalizam respostas equivalentes, porém com formatação diferente, especificações ambíguas de tarefas e tarefas estocásticas impossíveis de reproduzir.
Recomendo muito essa leitura.
Blog:
Aprenda a construir agentes de IA eficazes em nossa academia:

173
Mais um grande alívio da @elevenlabsio!
Eles acabaram de lançar o Scribe v2, que parece ser o modelo de transcrição mais preciso já lançado.
É difícil ignorar esses benchmarks. Scribe estabelece um novo padrão de precisão.

ElevenLabs9 de jan., 22:01
Hoje vamos apresentar o Scribe v2: o modelo de transcrição mais preciso já lançado.
Enquanto o Scribe v2 Realtime é otimizado para latência ultra baixa e casos de uso de agentes, o Scribe v2 é feito para transcrição em lote, legendagem e legendagem em escala.
16
Agentes de LLM se desmembram em tarefas longas.
É aí que a engenharia de contexto realmente importa.
Agentes podem raciocinar e usar ferramentas, mas operações estendidas causam crescimento ilimitado do contexto e erros acumulados.
Soluções comuns como compressão de contexto ou forças de prompting aumentadas por recuperação são os compromissos entre fidelidade da informação e estabilidade do raciocínio.
Essa nova pesquisa introduz o InfiAgent, uma estrutura que mantém o contexto de raciocínio do agente estritamente limitado, independentemente de quanto tempo a tarefa dure.
A ideia é externalizar o estado persistente em uma abstração centrada no arquivo. Em vez de condensar tudo em contexto, o agente mantém um espaço de trabalho de arquivos que persistem em etapas. Em cada ponto de decisão, ele reconstrói o contexto a partir de um instantâneo do estado do workspace mais uma janela fixa de ações recentes.
Isso desacopla a duração da tarefa do tamanho do contexto. Seja a tarefa levar 10 ou 1000 passos, o contexto de raciocínio permanece o mesmo comprimento.
Isso é bom porque a abordagem não exige ajustes finos específicos para cada tarefa. O agente opera da mesma forma, independentemente do domínio.
Experimentos no DeepResearch e uma tarefa de revisão bibliográfica de 80 artigos mostram que o InfiAgent com um modelo open-source de 20B é competitivo com sistemas proprietários maiores. Ela mantém uma cobertura de longo horizonte substancialmente maior do que as linhas de base centradas no contexto.
A revisão bibliográfica de 80 artigos é particularmente reveladora. Esse é exatamente o tipo de tarefa prolongada em que agentes tradicionais acumulam erros e perdem o contato do que fizeram. A externalização de estado baseada em arquivos do InfiAgent impede essa degradação.
Papel:
Aprenda a construir agentes de IA eficazes em nossa academia:

46
Melhores
Classificação
Favoritos
