谷歌文档创始人@snewmanpv发布了出色的新帖子,警告人们不要天真地解读@METR_Evals的趋势。 “一个项目不是一堆任务”