Một bài viết tuyệt vời khác từ Anthropic! Tất cả đều xoay quanh việc cải thiện các tác nhân của bạn thông qua việc đánh giá. Dưới đây là những điểm tóm tắt nhanh của tôi từ blog: Các khả năng làm cho các tác nhân trở nên hữu ích (tự chủ, trí tuệ, linh hoạt) cũng chính là những khả năng làm cho chúng khó đánh giá. Bạn không thể chỉ chạy các bài kiểm tra đơn vị và mong đợi ứng dụng tác nhân của bạn hoạt động. Hướng dẫn này phân tích khung thực tiễn mà các nhà phát triển Anthropic sử dụng cho việc đánh giá tác nhân. Họ đã đề cập đến ba loại người chấm điểm, mỗi loại có những ưu nhược điểm: - Người chấm điểm dựa trên mã là nhanh, rẻ và có thể tái tạo, nhưng dễ bị tổn thương trước các biến thể hợp lệ. - Người chấm điểm dựa trên mô hình xử lý sự tinh tế và các nhiệm vụ mở, nhưng không xác định và cần sự hiệu chỉnh của con người. - Người chấm điểm con người có chất lượng tiêu chuẩn vàng, nhưng đắt và chậm. Họ cũng nói về hai loại đánh giá phục vụ cho các mục đích khác nhau. 1) Đánh giá khả năng hỏi "tác nhân này có thể làm tốt điều gì?" và bắt đầu với tỷ lệ vượt qua thấp. 2) Đánh giá hồi quy hỏi "nó vẫn có thể xử lý các nhiệm vụ trước đó không?" và nên giữ gần 100%. Các nhiệm vụ tốt nghiệp từ khả năng sang hồi quy đại diện cho tiến bộ thực sự. Đối với sự không xác định, hai chỉ số quan trọng. pass@k đo lường xác suất của ít nhất một thành công trong k lần thử. pass^k đo lường xác suất rằng tất cả k lần thử đều thành công. Những điều này phân kỳ mạnh mẽ, tại k=10, pass@k có thể gần 100% trong khi pass^k giảm xuống gần bằng không. Một mẹo thực sự tốt trong các blog là bắt đầu với 20-50 nhiệm vụ đơn giản từ những thất bại thực tế thay vì chờ đợi sự hoàn hảo. Chuyển đổi các kiểm tra thủ công mà bạn đã thực hiện thành các trường hợp kiểm tra. Chấm điểm đầu ra, không phải các con đường đã đi. Bao gồm tín dụng một phần cho các nhiệm vụ phức tạp. Những cạm bẫy phổ biến bao gồm việc chấm điểm cứng nhắc mà phạt các câu trả lời tương đương nhưng định dạng khác nhau, các thông số nhiệm vụ không rõ ràng, và các nhiệm vụ ngẫu nhiên không thể tái tạo. ...