“女性都去哪儿了?”
Where have all the women gone?
探索大型语言模型对历史知识的偏见
大型语言模型(LLMs)如ChatGPT在教育和职业领域的应用越来越广泛。在将它们整合到现有应用程序和日常生活之前,了解和研究这些模型中存在的许多偏见非常重要。
我在之前的文章中研究了其中一个偏见,即历史事件的偏见。我探索了LLMs,以了解它们以主要历史事件的形式编码了哪些历史知识。我发现它们对于理解主要历史事件存在严重的西方偏见。
在相同的主题下,本文中我将探讨语言模型对重要历史人物的理解。我询问了两个LLMs谁是历史上最重要的人物。我重复了这个过程10次,使用了10种不同的语言。一些名字,如甘地和耶稣,频繁出现。其他名字,如居里夫人或克利奥帕特拉,出现的次数较少。与模型生成的男性名字数量相比,女性名字非常少。
我最大的问题是:所有的女性都去哪儿了?
继续评估语言模型编码的历史偏见的主题,我探索了OpenAI的GPT-4和Anthropic的Claude对于主要历史人物。在本文中,我展示了这两个模型都包含:
- 性别偏见:这两个模型在预测男性历史人物方面存在不成比例的现象。GPT-4 5.4% 的时间生成女性历史人物的名字,Claude 则为 1.8%。这个模式在所有的10种语言中都存在。
- 地理偏见:无论模型的提示语言是什么,都存在对预测西方历史人物的偏见。GPT-4 在60%的时间内生成欧洲历史人物,Claude 则为 52%。
- 语言偏见:某些语言更容易受到性别或地理偏见的影响。例如,在俄语提示下,无论是 GPT-4 还是 Claude,在我所有的实验中都没有生成女性历史人物。此外,某些语言的质量较低。例如,在阿拉伯语提示下,模型更有可能通过生成…来错误回答。