大規模言語モデルが信念と事実を見分けるのが難しい テストした24の最先端モデルはすべて、一人称の誤った信念を認識できませんでした(精度のレベルについては図を参照)@NatMachIntell @james_y_zou @suzgunmirac