A dificuldade que os grandes modelos de linguagem têm para discernir crença de fato Todos os 24 modelos de ponta testados falharam em reconhecer crenças falsas em primeira pessoa (veja a figura para o nível de precisão) @NatMachIntell @james_y_zou @suzgunmirac