Giuro che ogni organizzazione di ricerca ha lottato con: "Come possiamo condividere più WIP senza che le persone lo trattino come definitivo?"
Adoro come cliccando sulla nuova pagina Note di @METR_Evals cambi l'intero sito in un font scritto a mano con sfondo di gesso.
Un forte visivo che grida "no sul serio, questo è grezzo".
• 20 agosto: xAI afferma che se un modello è >50% su MASK attiva la sua soglia di "perdita di controllo".
• 26 agosto: Grok CF1 ha ottenuto il 72% e xAI ha detto che non rappresenta un rischio.
Sembra che entrambi siano veri: MASK non è un benchmark molto spaventoso e xAI dovrebbe spiegare perché ha cambiato idea nel corso di una settimana.