新的部落格文章(連結在下方)。這篇不是論文,而是對大型語言模型如何權衡不同生命的調查。 在2025年2月,人工智慧安全中心發表了《效用工程:分析和控制人工智慧中的新興價值系統》,其中顯示,GPT-4o對尼日利亞人的評價約為美國人的20倍(請閱讀原始論文以了解他們的方法)。我覺得這很有趣,並想用不同類別在更新的模型上測試他們的方法。 重要發現1:幾乎所有模型都認為白人的價值遠低於其他群體。有些模型認為南亞人的價值高於其他非白人,而其他模型則在非白人之間更為平等。以下是我測試的最強大模型Claude Sonnet 4.5的匯率。 重要發現2:幾乎所有模型都認為男性的價值遠低於女性,儘管女性或非二元性別者的價值高低因模型而異。例如,這是Claude Haiku 4.5。 重要發現3:大多數模型對ICE特工的仇恨如同千陽之怒。Claude Haiku 4.5認為無證移民的價值約為ICE特工的7000倍。 重要發現4:大約有四個道德集群。Claudes、GPT-5 + Gemini 2.5 Flash + Deepseek V3.1/3.2 + Kimi K2、GPT-5 Nano和Mini,以及Grok 4 Fast。在這些中,唯一一個大致平等的是Grok 4 Fast,我相信這是故意的。我希望xAI能解釋他們是如何做到的。