Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡Otra publicación impresionante de Anthropic!
Se trata de mejorar tus agentes a través de evaluaciones.
Aquí están mis conclusiones rápidas del blog:
Las capacidades que hacen que los agentes sean útiles (autonomía, inteligencia, flexibilidad) son las mismas que dificultan su evaluación. No puedes simplemente ejecutar pruebas unitarias y esperar que tu aplicación agente funcione.
Esta guía desglosa el marco práctico que los desarrolladores de Anthropic utilizan para las evaluaciones de agentes.
Mencionaron tres tipos de evaluadores, cada uno con sus pros y contras:
- Los evaluadores basados en código son rápidos, baratos y reproducibles, pero frágiles ante variaciones válidas.
- Los evaluadores basados en modelos manejan matices y tareas abiertas, pero son no deterministas y requieren calibración humana.
- Los evaluadores humanos son de calidad estándar de oro, pero caros y lentos.
También hablan de dos categorías de evaluaciones que sirven a diferentes propósitos.
1) Las evaluaciones de capacidad preguntan "¿qué puede hacer bien este agente?" y comienzan con tasas de aprobación bajas.
2) Las evaluaciones de regresión preguntan "¿puede seguir manejando tareas anteriores?" y deben mantenerse cerca del 100%. Las tareas que pasan de capacidad a regresión representan un progreso real.
Para la no determinación, dos métricas son importantes. pass@k mide la probabilidad de al menos un éxito en k intentos. pass^k mide la probabilidad de que todos los k ensayos tengan éxito. Estas divergen drásticamente, a k=10, pass@k puede acercarse al 100% mientras que pass^k cae a cerca de cero.
Un buen consejo en los blogs es comenzar con 20-50 tareas simples de fallos reales en lugar de esperar a la perfección. Convierte las verificaciones manuales que ya realizas en casos de prueba. Califica salidas, no caminos tomados. Incluye crédito parcial para tareas complejas.
Los errores comunes incluyen una calificación rígida que penaliza respuestas equivalentes pero con formatos diferentes, especificaciones de tareas ambiguas y tareas estocásticas imposibles de reproducir.
...

Parte superior
Clasificación
Favoritos
