Je jure que chaque organisation de recherche a lutté avec : "Comment partager plus de WIP sans que les gens le considèrent comme final ?"
J'adore comment cliquer sur la nouvelle page Notes de @METR_Evals change tout le site en police manuscrite et fond de tableau noir.
Un visuel fort qui crie "non sérieusement, c'est brut".
• 20 août : xAI dit que si un modèle est >50% sur MASK, cela déclenche son seuil de "perte de contrôle".
• 26 août : Grok CF1 a obtenu 72% et xAI a dit qu'il ne pose pas de risque.
Il semble que les deux soient vrais : MASK n'est pas un benchmark très effrayant et xAI devrait expliquer pourquoi ils ont changé d'avis au cours de la semaine.