Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

¡Otra publicación genial de Anthropic! Todo se trata de mejorar a tus agentes mediante evaluaciones. Aquí están mis conclusiones rápidas del blog: Las capacidades que hacen útiles a los agentes (autonomía, inteligencia, flexibilidad) son las mismas que dificultan su evaluación. No puedes simplemente ejecutar pruebas unitarias y esperar que tu aplicación agentic funcione. Esta guía desglosa el marco práctico que utilizan los desarrolladores antrópicos para las evaluaciones de agentes. Mencionaron tres tipos de evaluadores, cada uno con sus inconvenientes: - Las clasificadoras basadas en código son rápidas, baratas y reproducibles, pero frágiles para variaciones válidas. - Los evaluadores basados en modelos manejan tareas de matices y abiertas, pero no son deterministas y requieren calibración humana. - Las clasificadoras humanas son de calidad de estándar oro, pero caras y lentas. También hablan de dos categorías de evaluaciones que cumplen propósitos diferentes. 1) Las evaluaciones de capacidades preguntan "¿qué puede hacer bien este agente?" y empiezan con tasas bajas de aprobado. 2) Las evaluaciones de regresión preguntan "¿puede seguir manejando tareas anteriores?" y deberían mantenerse cerca del 100%. Las tareas que pasan de capacidad a regresión representan un progreso real. Para el no determinismo, dos métricas importan. pass@k mide la probabilidad de al menos un éxito en k intentos. pass^k mide la probabilidad de que todos los k ensayos tengan éxito. Estos divergen drásticamente, en k=10, pass@k pueden acercarse al 100% mientras que pass^k cae cerca de cero. Un muy buen consejo en los blogs es empezar con 20-50 tareas sencillas de fracasos reales en lugar de esperar a la perfección. Convierte las comprobaciones manuales que ya realizas en casos de prueba. Resultados de calidad, no caminos tomados. Incluye crédito parcial para tareas complejas. Los errores comunes incluyen una calificación rígida que penaliza respuestas equivalentes pero con formato diferente, especificaciones ambiguas de tareas y tareas estocásticas imposibles de reproducir. ...

Populares

Ranking

Favoritas