المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
منشور رائع آخر من Anthropic!
الأمر كله يتعلق بتحسين وكلائك عبر التقييمات.
إليكم ما استخلصته بسرعة من المدونة:
القدرات التي تجعل العملاء مفيدين (الاستقلالية، الذكاء، المرونة) هي نفسها التي تجعل تقييمهم صعبا. لا يمكنك فقط تشغيل اختبارات الوحدة وتوقع أن يعمل تطبيق الوكيل الخاص بك.
هذا الدليل يشرح الإطار العملي الذي يستخدمه مطورو Anthropic لتقييم العملاء.
ذكروا ثلاثة أنواع من المصححين، لكل منها مقايضة:
- أجهزة التصحيح المعتمدة على الرموز سريعة ورخيصة وقابلة للتكرار، لكنها هشة أمام التنويعات الصحيحة.
- تصحيح النماذج تتعامل مع التفاصيل الدقيقة والمهام المفتوحة، لكنها غير حتمية وتتطلب معايرة بشرية.
- أجهزة التصحيح البشرية ذات جودة ذهبية قياسية، لكنها مكلفة وبطيئة.
كما يتحدثون عن فئتين من التقييمات التي تخدم أغراضا مختلفة.
1) تقييمات القدرات تسأل "ما الذي يمكن لهذا الوكيل أن يجيده؟" وتبدأ بمعدلات نجاح منخفضة.
2) تقييمات الانحدار تسأل "هل لا يزال بإمكانه التعامل مع المهام السابقة؟" ويجب أن تبقى قريبة من 100٪. المهام التي تتحول من القدرة إلى الانحدار تمثل تقدما حقيقيا.
بالنسبة لعدم الحتمية، هناك مقياسان مهمان. يقيس pass@k احتمال نجاح واحد على الأقل في k محاولات. يقيس pass^k احتمال نجاح جميع تجارب K. تتبافر هذه النقاط بشكل كبير، عند k=10، يمكن pass@k أن تقترب من 100٪ بينما ينخفض pass^k إلى ما يقارب الصفر.
نصيحة جيدة جدا في المدونات هي أن تبدأ ب 20-50 مهمة بسيطة من إخفاقات حقيقية بدلا من انتظار الكمال. حول الفحوصات اليدوية التي تقوم بها بالفعل إلى حالات اختبار. نتائج التقييم، وليس المسارات التي تم اتخاذها. أضف جزءا من الائتمان للمهام المعقدة.
تشمل الأخطاء الشائعة التصنيف الصارم الذي يعاقب الإجابات المكافئة ولكن ذات التنسيق المختلف، ومواصفات المهام الغامضة، والمهام العشوائية التي يصعب إعادة إنتاجها.
...

الأفضل
المُتصدِّرة
التطبيقات المفضلة
