Клянусь, каждая исследовательская организация сталкивалась с вопросом: "Как нам делиться большим количеством WIP, не заставляя людей воспринимать это как окончательный результат?"
Мне нравится, как нажатие на новую страницу Заметок @METR_Evals меняет весь сайт на рукописный шрифт и фон мела.
Сильный визуальный сигнал, кричащий "нет, серьезно, это черновик".
• 20 августа: xAI говорит, что если модель >50% по MASK, это срабатывает ее порог "потери контроля"
• 26 августа: Grok CF1 получил 72%, и xAI сказал, что это не представляет риска
Кажется, что оба утверждения верны: MASK не является очень страшным ориентиром, и xAI должен объяснить, почему они изменили свое мнение за неделю.