

有很多事情你不应该交给互联网上的随机人士来做:船名(见:“巨型船奥利给”)、医疗诊断(见:Twitter上所有认为你的感冒是肺炎的人),以及根据人口统计数据预测被定罪的罪犯是否可能再次犯罪(见:本文)。
但根据《科学进展》上的一项新研究,我们这样做也无济于事。
尽管我们大多数人都生活在幸福的无知之中,但算法却在很大程度上控制着我们生活的方方面面。银行贷款、音乐推荐以及我们看到的广告,往往不是由人类判断决定的,而是由一个数学方程式决定的。这本身并没有什么问题。处理大量数据并将其浓缩成一个统计数据的能力可以带来积极的强大力量——这就是Spotify如何每周都能为所有用户提供个性化音乐推荐。如果你的新播放列表不符合你的口味,那其实无关紧要。但如果你因为某个算法告诉法官你很可能在不久的将来再次犯罪,而被判10年监禁而不是5年,那么,这影响就有点大了。
法官在审理任何一名被定罪的罪犯的报告时,通常会收到一份再犯率评分,分数越高,表明该人将来再次犯罪的可能性越大。这个分数旨在影响法官关于某人应被判多少年监禁的决定。一个不太可能再次犯罪的人对社会的威胁较小,所以法官通常会判处他们较短的刑期。而且,由于再犯率评分“感觉”上是公正无私的,这些数字可以承载很大的分量。
自2000年以来,在美国各地法院使用的算法一直在处理这些数字。它们在很大程度上没有受到太多监督或批评,直到《ProPublica》发布了一项调查,揭示了一个特定系统对黑人被告的偏见。这个名为COMPAS的算法,对每个种族预测谁将再次犯罪的准确性大致相同。但它对黑人的错误判断是白人的两倍。COMPAS错误地将一个*没有*再次犯罪的人标记为“高风险”的频率,对这些人来说是近乎两倍。COMPAS还错误地为那些后来犯罪更多的白人罪犯分配了更多的“低风险”标签。因此,该系统实际上是在妖魔化黑人罪犯,同时又给予白人罪犯“信任的优势”。
这正是算法本应从等式中消除的那种系统性种族歧视,这与朱莉娅·德雷塞尔在阅读《ProPublica》的报道时所想的几乎一致。于是她去拜访了达特茅斯大学的计算机科学教授哈尼·法里德,当时德雷塞尔是该校的学生。作为计算机科学家,他们认为自己或许能做些什么——也许甚至能修复这个算法。于是他们努力工作,但总是达不到目标。
“不管我们做什么,”法里德解释说,“一切都停留在55%的准确率,这很不寻常。通常当你加入更复杂的数据时,你会期望准确率提高。但不管朱莉娅做什么,我们都被卡住了。”另外四支试图解决同样问题的团队都得出了结论:算法要做到完全公平在数学上是不可能的。
问题不在于我们的算法(抱歉了,霍雷肖),而在于我们的数据。
于是他们采用了另一种方法。“我们意识到存在一个潜在的假设,即这些算法本身就优于人类预测,”德雷塞尔说。“但我们找不到任何研究证明这些工具确实更好。所以我们问自己:人类预测的基线是什么?”两人猜测,人类的准确率可以接近这个算法的水平。毕竟,它也只有65%的准确率。
这促使德雷塞尔和法里德找到了一个被各地研究人员使用的在线工具:Mechanical Turk,这是一个命名奇怪的亚马逊服务,允许科学家设置调查和测试,并付费给用户让他们完成。这是一个轻松接触大量基本随机人群以进行类似研究的途径。
完整的COMPAS算法使用137个特征来做出预测。德雷塞尔和法里德的随机人群小组只有七个特征:性别、年龄、犯罪指控、犯罪程度、非青少年前科数量、青少年重罪数量和青少年轻罪数量。仅基于这些因素,并且没有关于如何解释数据以得出结论的指示,462人被简单地问及他们认为被告在未来两年内是否可能再次犯罪。他们的准确率——以及偏见——几乎与COMPAS算法完全相同。
更重要的是,研究人员发现,他们可以通过使用原始137个因素中的两个:年龄和先前定罪的数量,就能达到非常接近的预测能力。这两个是判断罪犯是否会再次犯罪(或者说,罪犯是否可能再次犯罪*并且*再次被捕获和定罪)的最大决定因素。
再犯率似乎直接衡量了一个人犯罪的可能性,但我们实际上并没有办法衡量违法的人数。我们只能衡量那些被我们抓住的人。以及那些我们选择定罪的人。这就是数据被我们自身系统性偏见所干扰的地方。
“很容易说‘我们不把种族纳入算法’,”法里德说。“好的,没错。但还有其他东西可以作为种族的代理。”德雷塞尔解释说,那就是定罪率。“在全国范围内,黑人更有可能拥有犯罪前科,”她说,“这种差异很可能导致了假阳性和假阴性的错误率。”对于任何一名白人和黑人犯下完全相同的罪行,黑人更有可能被逮捕、定罪和监禁。
举个例子。两名罪犯,一名白人,一名黑人,犯下同样的罪行并被判入狱。两人在一年后被释放,几个月后各自又犯了罪。按照任何理性的定义,他们都再次犯罪了——但黑人更有可能再次被逮捕、审判和定罪。由于为COMPAS和在线人类参与者提供信息的数据库已经对黑人存在偏见,所以两个预测都会带有偏见。
算法中的偏见并不一定意味着它们毫无用处。但德雷塞尔和法里德——以及他们领域内的许多其他人——正试图警告不要对这些数字抱有过多信心。
“我们担心的是,当你有像COMPAS这样的软件,它是一个黑盒子,听起来复杂而花哨,法官可能不会像对待‘12个网民认为这个人有高风险’这样的说法那样,应用与其相称的信心,”法里德说。“也许我们应该有点担心,有多家商业实体向法院出售未经分析的算法。也许像司法部这样的部门应该负责对这些算法进行审查。这似乎是合乎情理的。”
一种可能的解决方案是请有刑事司法经验的人来预测再犯率。他们可能比互联网上的随机人员(以及COMPAS)拥有更好的见解。如果真正的专家能够介入帮助修正有缺陷的数据集,法里德和德雷塞尔都同意,这类算法可以发挥作用。他们说,关键在于,制造这些算法的公司要对其方法保持透明,并向法院坦诚其普遍存在的局限性和偏见。认为将我们的决策交给数据处理计算机可以让我们免受对有色人种的潜在人为偏见,这是合理的假设,但事实并非如此。算法只是在重复我们多年来犯下的系统性错误,只是以一种误导性的公平假象产生结果。
完全有可能我们永远无法准确预测再犯率。这听起来显而易见,但却很容易被忘记。“预测未来是非常困难的,”法里德说,而向算法添加复杂数据并没有使其更准确,这可能意味着根本就没有信号可供检测。“如果是这样,”他说,“我们应该认真考虑这样一个事实:我们正在根据如此难以预测的事情来做出影响人们生活的决定。”