Vannon, että jokainen tutkimusorganisaatio on kamppaillut: "Kuinka voimme jakaa enemmän keskeneräistä työtä ilman, että ihmiset pitävät sitä lopullisena?"
Rakastan sitä, kuinka @METR_Evals uuden Muistiinpanot-sivun napsauttaminen muuttaa koko sivuston käsinkirjoitetuksi fontiksi ja liitutaustaksi.
Vahva visuaalinen huuto "ei vakavasti, tämä on karkeaa".
• 20. elokuuta: xAI sanoo, että jos malli on >50 % MASKissa, se laukaisee "hallinnan menetyksen" kynnyksen
• 26. elokuuta: Grok CF1 sai 72 % ja xAI sanoi, että se ei aiheuta riskiä
Näyttää siltä, että molemmat totta MASK ei ole pelottava vertailukohta, ja xAI:n pitäisi selittää, miksi he muuttivat mieltään viikon aikana