Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Construyendo con agentes de IA @dair_ai • Anterior: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Comparto ideas sobre cómo construir con LLMs y agentes ⬇️ de IA
¡Otra publicación genial de Anthropic!
Todo se trata de mejorar a tus agentes mediante evaluaciones.
Aquí están mis conclusiones rápidas del blog:
Las capacidades que hacen útiles a los agentes (autonomía, inteligencia, flexibilidad) son las mismas que dificultan su evaluación. No puedes simplemente ejecutar pruebas unitarias y esperar que tu aplicación agentic funcione.
Esta guía desglosa el marco práctico que utilizan los desarrolladores antrópicos para las evaluaciones de agentes.
Mencionaron tres tipos de evaluadores, cada uno con sus inconvenientes:
- Las clasificadoras basadas en código son rápidas, baratas y reproducibles, pero frágiles para variaciones válidas.
- Los evaluadores basados en modelos manejan tareas de matices y abiertas, pero no son deterministas y requieren calibración humana.
- Las clasificadoras humanas son de calidad de estándar oro, pero caras y lentas.
También hablan de dos categorías de evaluaciones que cumplen propósitos diferentes.
1) Las evaluaciones de capacidades preguntan "¿qué puede hacer bien este agente?" y empiezan con tasas bajas de aprobado.
2) Las evaluaciones de regresión preguntan "¿puede seguir manejando tareas anteriores?" y deberían mantenerse cerca del 100%. Las tareas que pasan de capacidad a regresión representan un progreso real.
Para el no determinismo, dos métricas importan. pass@k mide la probabilidad de al menos un éxito en k intentos. pass^k mide la probabilidad de que todos los k ensayos tengan éxito. Estos divergen drásticamente, en k=10, pass@k pueden acercarse al 100% mientras que pass^k cae cerca de cero.
Un muy buen consejo en los blogs es empezar con 20-50 tareas sencillas de fracasos reales en lugar de esperar a la perfección. Convierte las comprobaciones manuales que ya realizas en casos de prueba. Resultados de calidad, no caminos tomados. Incluye crédito parcial para tareas complejas.
Los errores comunes incluyen una calificación rígida que penaliza respuestas equivalentes pero con formato diferente, especificaciones ambiguas de tareas y tareas estocásticas imposibles de reproducir.
Recomiendo mucho esta lectura.
Blog:
Aprende a crear agentes de IA efectivos en nuestra academia:

172
¡Otro gran alivio de @elevenlabsio!
Acaban de lanzar Scribe v2, que parece el modelo de transcripción más preciso jamás lanzado.
Es difícil ignorar estos benchmarks. Scribe establece un nuevo estándar de precisión.

ElevenLabs9 ene, 22:01
Hoy presentamos Scribe v2: el modelo de transcripción más preciso jamás lanzado.
Mientras que Scribe v2 Realtime está optimizado para casos de latencia ultra baja y agentes de uso, Scribe v2 está diseñado para transcripción en lotes, subtítulos y subtitulado a gran escala.
15
Los agentes de LLM se desglosan en tareas largas.
Aquí es donde realmente importa la ingeniería de contexto.
Los agentes pueden razonar y usar herramientas, pero las operaciones extendidas provocan un crecimiento ilimitado del contexto y errores acumulados.
Soluciones comunes como la compresión de contexto o la recuperación aumentada de prompting obligan a hacer compromisos entre fidelidad de la información y estabilidad del razonamiento.
Esta nueva investigación introduce InfiAgent, un marco que mantiene el contexto de razonamiento del agente estrictamente acotado independientemente de cuánto dure la tarea.
La idea es externalizar el estado persistente en una abstracción centrada en archivos. En lugar de meter todo en contexto, el agente mantiene un espacio de trabajo de archivos que persisten a lo largo de los pasos. En cada punto de decisión, reconstruye el contexto a partir de una instantánea del estado del espacio de trabajo más una ventana fija de acciones recientes.
Esto desacopla la duración de la tarea del tamaño del contexto. Tanto si la tarea dura 10 pasos como si son 1000, el contexto de razonamiento se mantiene igual.
Esto es bueno porque el enfoque no requiere ajustes finos específicos para cada tarea. El agente opera de la misma manera, independientemente del dominio.
Experimentos en DeepResearch y una tarea de revisión bibliográfica de 80 artículos muestran que InfiAgent con un modelo de código abierto de 20B es competitivo con sistemas propietarios de mayor tamaño. Mantiene una cobertura de largo horizonte sustancialmente mayor que las líneas base centradas en el contexto.
La revisión bibliográfica de 80 artículos es especialmente reveladora. Ese es exactamente el tipo de tarea prolongada en la que los agentes tradicionales acumulan errores y pierden la pista de lo que han hecho. La externalización de estado basada en archivos de InfiAgent evita esta degradación.
Papel:
Aprende a crear agentes de IA efectivos en nuestra academia:

45
Populares
Ranking
Favoritas
