大型語言模型在辨別信念與事實方面的困難 所有24個測試的尖端模型都未能承認第一人稱的錯誤信念(見圖以了解準確性水平) @NatMachIntell @james_y_zou @suzgunmirac