Przysięgam, że każda organizacja badawcza zmagała się z pytaniem: "Jak możemy dzielić się większą ilością WIP, nie traktując tego jako ostatecznego?"
Uwielbiam, jak kliknięcie na nową stronę Notatek @METR_Evals zmienia całą witrynę na czcionkę ręcznie pisaną i tło kredowe.
Silny wizualny komunikat krzyczący "nie, na serio, to jest surowe".
• 20 sierpnia: xAI mówi, że jeśli model ma >50% na MASK, to uruchamia swój próg "utraty kontroli".
• 26 sierpnia: Grok CF1 uzyskał 72%, a xAI powiedział, że nie stanowi to ryzyka.
Wydaje się, że obie te rzeczy są prawdziwe, MASK nie jest bardzo przerażającym benchmarkiem, a xAI powinno wyjaśnić, dlaczego zmieniło zdanie w ciągu tygodnia.