大型语言模型在区分信念与事实方面的困难 所有测试的24个前沿模型都未能承认第一人称的错误信念(见图表以了解准确性水平) @NatMachIntell @james_y_zou @suzgunmirac