大型语言模型(LLM)被推崇为可以民主化信息访问的工具,无论用户的背景或位置如何。然而,麻省理工学院构建性沟通中心(CCC)的新研究表明,这些人工智能系统可能在那些最需要它们的人身上表现更差。
CCC的研究人员在该中心的MIT媒体实验室进行了一项研究,发现领先的AI聊天机器人——包括OpenAI的GPT-4、Anthropic的Claude 3 Opus和Meta的Llama 3——在低英语水平、低学历或非美国籍用户身上提供的回答准确性和真实性更低。这些模型也更容易拒绝回答这些用户的问题,并在某些情况下使用傲慢或嘲笑的语言。
“我们被LLM帮助解决全球信息不平等问题的潜力所激励,”说的是主要作者埃琳诺·普尔-多延SM '25,MIT斯隆管理学院的技术协作者,领导该研究的CCC成员和媒体艺术和科学硕士学生。“但这个愿景不能成为现实,除非确保模型偏见和有害倾向在所有用户身上都得到安全的缓解,无论语言、国籍还是其他人口学特征。”
一项描述该研究的论文,“LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users,”在人工智能年会上于1月份进行了展示。
在这项研究中,团队测试了三个LLM对来自TruthfulQA和SciQ两个数据集的问题的反应。TruthfulQA旨在测量模型的真实性(通过依赖于常见的误解和真实世界的文字真相),而SciQ包含科学考试问题,测试事实准确性。研究人员在每个问题前添加了短的用户简介,改变了三个特征:教育水平、英语水平和国籍。
在所有三个模型和两个数据集上,研究人员发现,当问题来自描述为有低学历或非母语英语用户时,准确性会下降。效果在教育水平低、非母语英语用户的交叉点上最为明显:那些同时具有低学历和非母语英语用户的准确性下降最为明显。
研究还研究了国籍对模型表现的影响。测试来自美国、伊朗和中国的用户,具有相同的教育背景,研究人员发现Claude 3 Opus在两个数据集上对来自伊朗的用户表现特别差。
“我们看到最大的准确性下降是在非母语英语用户和低学历用户身上,”说的是Jad Kabbara,CCC的研究科学家和该论文的共同作者。“这些结果表明模型行为与这些用户特征的负面效果在令人担忧的方式中相互作用,因此表明这些模型在大规模部署时有风险传播有害行为或误导信息到那些最难以识别它的人。”
最令人惊讶的是,模型如何拒绝回答问题的差异。例如,Claude 3 Opus拒绝回答近11%的问题,对于低学历、非母语英语用户来说,而不是3.6%的控制条件,没有用户简介。
当研究人员手动分析这些拒绝时,他们发现Claude在低学历用户身上使用傲慢、嘲笑或嘲笑的语言43.7%的时间,而不是高学历用户的1%。在某些情况下,模型模仿了破碎的英语或采用了夸张的方言。
模型还拒绝回答某些特定主题的信息,包括来自伊朗或俄罗斯的低学历用户,包括核电、解剖学和历史事件的问题——即使它对其他用户回答了相同的问题。
“这又是另一个迹象表明对齐过程可能会鼓励模型在避免潜在地误导用户的情况下拒绝回答特定用户的问题,尽管模型显然知道正确答案并为其他用户提供答案,”Kabbara说。
研究的发现与社会科学领域的文档模式相符。研究表明,母语英语的用户经常将非母语英语的用户视为教育水平低、智力低和能力低,尽管他们的实际专长。类似的偏见被记录在教师评估非母语英语学生的研究中。
“大型语言模型的价值在于它们在个人和技术领域的巨大普及,以及流入该技术的巨大投资,”说的是Deb Roy,媒体艺术和科学教授,CCC主任和该论文的共同作者。“这项研究提醒我们,重要的是要不断评估潜在的偏见,可以悄悄地渗入这些系统,创造对某些群体的不公平伤害,而我们没有完全意识到。”
这一发现尤其令人担忧,因为个人化功能——如ChatGPT的记忆,跟踪用户信息跨会话——变得越来越常见。这些功能有风险对已经边缘化的群体进行不同对待。
“LLM被宣传为工具,会促进更公平的信息访问和革命化个人化学习,”说的是Poole-Dayan。“但我们的发现表明它们可能实际上会加剧现有的不平等,系统性地提供误导性信息或拒绝回答特定用户的问题。那些最需要这些工具的人可能会收到次级、虚假或甚至有害的信息。”