Tôi thề rằng mọi tổ chức nghiên cứu đều gặp khó khăn với: "Làm thế nào để chúng tôi chia sẻ nhiều WIP hơn mà không để mọi người coi đó là bản cuối cùng?"
Thích cách mà việc nhấp vào trang Ghi chú mới của @METR_Evals làm thay đổi toàn bộ trang web thành phông chữ viết tay và nền phấn.
Hình ảnh mạnh mẽ kêu gào "không, thực sự, đây là bản thô".
• Ngày 20 tháng 8: xAI nói rằng nếu một mô hình >50% trên MASK thì nó kích hoạt ngưỡng "mất kiểm soát" của nó
• Ngày 26 tháng 8: Grok CF1 đạt 72% và xAI nói rằng nó không gây ra rủi ro
Có vẻ như cả hai đều đúng MASK không phải là một tiêu chuẩn đáng sợ và xAI nên giải thích tại sao họ đã thay đổi ý kiến trong suốt một tuần.