语言正在训练人工智能复制人类偏见

没有人教人工智能“永远不要看评论区”的规则

语言的本质在于重复。你正在阅读的每一个词都是由人类创造的,然后被其他人使用,从而创造并强化了语境、意义,以及语言本身的本质。当人类训练机器理解语言时,他们也在教会机器复制人类的偏见。

普林斯顿大学信息技术政策中心的 Aylin Caliskan 说:“我们能够展示和证明的主要科学发现是,语言反映了偏见。‘如果人工智能是用人类语言训练的,那么它必然会吸收这些偏见,因为它代表了世界上的文化事实和统计数据。’”

Caliskan 与合作者 Joanna Bryson 和 Arvind Narayanan 的研究成果已于上周发表在《科学》杂志上。他们的研究基本上发现,如果有人训练机器理解人类语言,那么机器就会同样吸收那些固有的偏见。

在人类身上,测试偏见的一种最佳方法是内隐联想测验,该测验要求人们将“昆虫”这样的词与“愉悦”或“不愉悦”这样的词联系起来,然后测量其潜伏期,也就是做出这种联系所需的时间。人们很快就会将昆虫标记为不愉悦,而将它们标记为愉悦则会慢一些,因此这是一个很好的联想指标。

测试计算机的犹豫不决实际上是无效的,因此研究人员找到了另一种方法来观察哪些词语计算机更倾向于与其他词语联系。就像学生仅根据某个不熟悉词语的近邻词语来猜测其含义一样,研究人员训练了一个人工智能,使其能够联系在线上经常出现在一起的词语,并且不联系那些不常一起出现的词语。

想象一下,每个词都是三维空间中的一个向量。经常出现在同一句话中的词语距离更近,而很少与它出现在同一句话中的词语距离更远。两个词语的距离越近,机器将它们联系起来的可能性就越大。如果人们说“程序员”时经常与“他”和“电脑”一起出现,而说“护士”时经常与“她”和“服装”一起出现,这就说明了语言中存在的内隐偏见。

Profession names associated with women have more women workers
Caliskan 等人

用这种语言数据来训练计算机并不是一个新概念。像斯坦福大学的GloVe(词向量全局模型)这样的工具(在这个论文之前就已存在)会根据词语的使用情况来绘制相关词语之间的向量。GloVe 的词集包含 270 亿个从 20 亿条推文中提取的词语,60 亿个从 2014 年维基百科中提取的词语,以及 8400 亿个从随机互联网抓取中提取的词语。

Bryson 说:“你可以问‘‘牵引绳’出现多少次与‘猫’同时出现?’和‘‘牵引绳’出现多少次与‘狗’同时出现?’以及‘‘牵引绳’出现多少次与‘正义’同时出现?’,这都将成为词语的特征。然后,你可以用余弦来比较这些向量。猫和狗有多近?猫和正义有多近?”

就像内隐联想测验显示了人类在无意识中认为哪些概念是好是坏一样,计算不同词语组之间的平均距离,也让研究人员了解了计算机在理解语言时开始显现出的偏见。令人惊讶的是,被训练来理解语言的机器竟然能捕捉到人类对花(它们是令人愉悦的)和昆虫(它们是令人不愉快的)的偏见,Bryson 表示,如果仅仅是这样,那也是一项重要的研究。但情况比这更深入。

Caliskan 说:“还有第二个测试,是衡量我们的发现与公开统计数据之间的数量关系。我查阅了 2015 年的劳工统计局数据,他们每年都会发布职业名称以及其中女性的百分比和例如黑人的百分比。通过查看 50 个职业名称的构成,并计算它们与男性或女性的关联度,我得到了与劳工统计局数据 90% 的相关性,这非常非常令人惊讶,因为我没想到能从如此嘈杂的数据中找到如此高的相关性。”

因此,计算机通过将与工作相关的词语与特定的性别或种族群体联系起来,正在捕捉到种族主义和性别歧视。论文中强调的一个例子是“程序员”,这个词在英语中并非性别化的词,但通过其使用,现在却带有男性职业的含义。

Bryson 说:“我们当时没想过,当你说‘程序员’时,你是在说男性还是女性,但事实证明,这存在于这个词语正常出现的语境中。”

用已使用的语言数据集(如 GloVe)训练的机器会捕捉到这种关联,因为这就是当前语境,但这同时也意味着未来的研究人员在使用这些数据时应谨慎,因为同样的人类偏见是“内置”的。当 Caliskan 使用维基百科的词集(该词集遵循中性语言编辑标准)训练该工具时,她发现其中包含与从互联网上提取的大量词语中发现的偏见相同的偏见。

Word association matches gender breakdown of androgynous names
Caliskan 等人

Caliskan 说:“为了意识到偏见,为了消除偏见,我们需要对其进行量化。偏见是如何进入语言的,人们是否会因为接触语言的方式而开始形成有偏见的联想?了解这一点也将帮助我们找到迈向一个偏见更少的未来的答案。”

一个可能的答案是研究其他语言。这项研究侧重于互联网上的英语词语,因此它发现的词语使用偏见,基本上是互联网上英语使用者的偏见。

Caliskan 说:“我们正在研究不同类型的语言,并根据语言的句法来试图理解它是否会影响性别刻板印象或性别歧视,仅仅是由于语言的句法。有些语言是无性别的,有些则有更多性别色彩。英语中有性别化的代词,但在德语等语言中,名词就有性别之分,情况会变得更复杂。斯拉夫语系有性别化的形容词甚至动词,我们想知道,这会如何影响社会中的性别偏见?”

理解偏见如何进入语言,也是一种理解人们除了词语的明确定义之外,还赋予了词语哪些其他隐性含义的方式。

该研究的作者之一 Joanna Bryson 说:“在某种程度上,这有助于我思考意识。意识的效用是什么?你想要拥有对世界的记忆,你想要知道通常会发生什么。这就是你的语义记忆。”

语言的可变性,即语义语境通过使用形成的方式,意味着这不一定是我们在理解这个世界的唯一方式。

Bryson 继续说道:“你想要能够创造一个新的现实。人类已经决定,我们现在已经足够成熟,可以允许女性工作并发展事业,这是完全可行的事情。现在我们可以协商新的协议,例如,‘我们不再说‘程序员他’,我们要说‘程序员他们’,即使我们指的是单数,因为我们不想让人们觉得他们不能成为程序员。’”

除非人们在用人类语言编程机器时考虑到这些现有的偏见,否则他们将创造出的不是一个无偏见的机器,而是一个复制人类偏见的机器。

Caliskan 说:“很多人认为机器是中立的。机器并非中立。如果你有一个顺序算法,它按顺序做决策,比如机器学习,你知道它是基于一套人类数据训练的,因此它必须呈现并反映这些数据,由于历史数据包含偏见,训练模型也必须包含这些偏见,如果它是一个好的训练算法的话。如果它足够准确,它就能理解所有这些关联。机器学习系统会学习它所看到的东西。”

 

更多优惠、评测和购买指南

 
Kelsey D. Atherton Avatar

Kelsey D. Atherton

科技领域特约撰稿人

Kelsey D. Atherton 是一名军事技术记者,自 2013 年起为《大众科学》供稿。他报道无人机器人和其他无人机、通信系统、核企业以及用于规划、发动和缓解战争的技术。


© .