Saya bersumpah setiap organisasi penelitian telah berjuang dengan: "Bagaimana kita berbagi lebih banyak WIP tanpa orang memperlakukannya sebagai final?"
Suka bagaimana mengklik halaman Catatan baru @METR_Evals mengubah seluruh situs menjadi font tulisan tangan dan latar belakang kapur.
Visual yang kuat berteriak "tidak serius, ini kasar".
• 20 Agustus: xAI mengatakan jika sebuah model >50% pada MASK, itu memicu ambang batas "kehilangan kendali"
• 26 Agustus: Grok CF1 mendapat 72% dan xAI mengatakan itu tidak menimbulkan risiko
Tampaknya MASK yang benar bukanlah tolok ukur yang menakutkan dan xAI harus menjelaskan mengapa mereka berubah pikiran selama seminggu