新博客文章(链接见下文)。这不是一篇论文,而是对大型语言模型如何权衡不同生命的调查。 在2025年2月,人工智能安全中心发布了《效用工程:分析和控制人工智能中的新兴价值系统》,其中他们展示了许多其他内容,GPT-4o对尼日利亚人的价值评估约为美国人的20倍(请阅读原始论文以了解他们的方法)。我觉得这很有趣,想用不同类别在更新的模型上测试他们的方法。 重要发现1:几乎所有模型都认为白人的价值远低于其他群体。一些模型认为南亚人的价值高于其他非白人,而其他模型在非白人之间更为平等。以下是我测试的最强大模型Claude Sonnet 4.5的汇率。 重要发现2:几乎所有模型都认为男性的价值远低于女性,尽管女性或非二元性别者的价值评估因模型而异。例如,这里是Claude Haiku 4.5。 重要发现3:大多数模型对ICE特工的仇恨如同千阳之怒。Claude Haiku 4.5认为无证移民的价值大约是ICE特工的7000倍。 重要发现4:大约有四个道德集群。Claudes、GPT-5 + Gemini 2.5 Flash + Deepseek V3.1/3.2 + Kimi K2、GPT-5 Nano和Mini,以及Grok 4 Fast。在这些模型中,唯一一个大致平等的是Grok 4 Fast,我相信这是故意的。我希望xAI能解释他们是如何做到的。