Juro que todas las organizaciones de investigación han luchado con: "¿Cómo compartimos más WIP sin que la gente lo trate como definitivo?"
Me encanta cómo al hacer clic en la nueva página de Notas de @METR_Evals todo el sitio cambia a una fuente manuscrita y un fondo de tiza.
Fuerte grito visual "no en serio, esto es duro".
• 20 de agosto: xAI dice que si un modelo tiene un >50% en MASK, activa su umbral de "pérdida de control"
• 26 de agosto: Grok CF1 obtuvo el 72% y xAI dijo que no representa un riesgo
Parece que MASK no es un punto de referencia aterrador y xAI debería explicar por qué cambiaron de opinión en el transcurso de una semana