Juro que todas as organizações de pesquisa têm lutado com: "Como compartilhamos mais WIP sem que as pessoas o tratem como final?"
Adoro como clicar na nova página de notas do @METR_Evals muda todo o site para fonte manuscrita e fundo de giz.
Forte gritando visual "não, sério, isso é difícil".
• 20 de agosto: xAI diz que se um modelo estiver >50% no MASK, ele aciona seu limite de "perda de controle"
• 26 de agosto: Grok CF1 obteve 72% e xAI disse que não representa um risco
Parece que o verdadeiro MASK não é um benchmark assustador e o xAI deve explicar por que eles mudaram de ideia ao longo de uma semana