Eu juro que todas as organizações de pesquisa lutaram com: "Como podemos compartilhar mais WIP sem que as pessoas o tratem como final?"
Adoro como clicar na nova página de Notas do @METR_Evals muda todo o site para uma fonte manuscrita e fundo de giz.
Um forte visual gritando "não, sério, isto é rascunho".
• 20 de Ago: xAI diz que se um modelo tiver >50% no MASK, isso ativa seu limite de "perda de controle"
• 26 de Ago: Grok CF1 obteve 72% e xAI disse que não representa um risco
Parece que ambos estão certos, o MASK não é um benchmark muito assustador e xAI deveria explicar por que mudaram de ideia ao longo de uma semana