愚弄机器

人工智能的拜占庭式欺骗科学。

20世纪初,德国马戏团驯马师兼数学家威廉·冯·奥斯滕(Wilhelm von Osten)向全世界宣称他的马会算术。多年来,冯·奥斯滕一直在德国各地巡演,展示他这匹名为“聪明的汉斯”(Clever Hans)的马的神奇表演。他会问汉斯一些简单的算术题,汉斯则会用蹄子敲击地板给出正确答案。二加二等于几?敲四下。

然而,科学家们并不相信汉斯像冯·奥斯滕所说的那样聪明。心理学家卡尔·施图普夫(Carl Stumpf)进行了一项详尽的研究,这项研究被称为“汉斯委员会”。他发现,聪明的汉斯并非在进行计算,而是在回应训练师和观众的视觉提示。汉斯会一直敲到正确数字,通常这时它的训练师和观众会爆发出欢呼声,这时汉斯就会停下来。当它看不到这些表情时,它会一直不停地敲下去。

如今,计算机科学可以从汉斯的故事中学到很多。一项加速发展的研究领域表明,我们目前所创造的大多数人工智能,虽然能够给出正确的答案,但并未真正理解信息。这意味着它们很容易被欺骗。

机器学习算法已迅速成为人类羊群的全知牧羊人。这些软件连接着我们在互联网上的交流,监测我们的电子邮件以过滤垃圾邮件或恶意内容,并且很快将驾驶我们的汽车。欺骗它们将动摇互联网的基石,并可能对我们未来的安全构成更大威胁。

一些小型研究团队——从宾夕法尼亚州立大学到谷歌,再到美国军方——正在设计和防御可能针对人工智能系统发起的潜在攻击。在理论研究中,攻击者可以改变自动驾驶汽车所看到的景象。或者,他们可以激活任何手机上的语音识别功能,并让其访问带有恶意软件的网站,而对于人类来说,这听起来不过是白噪音。或者让病毒穿过防火墙进入网络。

machine fooling artificial intelligence
左图是原始图像,显示的是一栋建筑。右图被篡改后,被基于深度神经网络的图像识别软件识别为一只鸵鸟。中间的图像显示了为了欺骗算法而对原始图片所做的细微改动。Christian Szegedy

这种方法并没有直接控制自动驾驶汽车,而是让它看到一种“幻觉”——实际上并不存在的图像。

这些攻击利用了“对抗样本”:对人类观察者来说看起来正常,但机器却将其识别为其他事物的图像、声音或文本。攻击者所做的微小改动就可以迫使深度神经网络对所看到的内容得出错误的结论。

“任何使用机器学习来做出安全关键决策的系统,都有可能遭受这类攻击,”研究对抗性机器学习攻击的加州大学伯克利分校研究员亚历克斯·坎切利安(Alex Kantchelian)说道。

然而,在人工智能发展的早期阶段就了解这一点,也为研究人员提供了理解如何弥补这些漏洞的工具。一些人已经开始着手解决这个问题,并表示他们的算法因此变得更加高效。

如今,大多数主流的人工智能研究都涉及深度神经网络,这是在更广泛的机器学习领域的基础上发展的。机器学习技术利用微积分和统计学来开发我们都在使用的软件,例如电子邮件中的垃圾邮件过滤器和谷歌搜索。在过去的20年里,研究人员开始将这些技术应用于一个名为神经网络的新概念,这是一种旨在模仿人脑的软件结构。其基本思想是将计算分散到成千上万个微小的方程(“神经元”)中,这些方程接收数据、处理数据,然后将其传递到另一个包含成千上万个微小方程的层。

这些人工智能算法的学习方式与机器学习相同,而机器学习的学习方式又与人类学习方式相同。它们会接触到事物的示例,并被赋予与所见事物相关联的标签。向计算机(或儿童)展示一张猫的图片,告诉它这就是猫的样子,该算法就会学会什么是猫。要识别不同的猫,或者不同角度的猫,计算机需要看到成千上万张甚至数百万张猫的图片。

研究人员发现,他们可以用故意具有欺骗性的数据,即对抗样本,来攻击这些系统。

AI image classification
2015年的一篇论文中,谷歌研究人员展示了通过施加微弱的失真,使深度神经网络将这张熊猫图片错误地分类为长臂猿。Christian Szegedy

“我们给你看一张明显是校车的照片,然后让你认为它是一只鸵鸟,”谷歌研究员伊恩·古德费洛(Ian Goodfellow)说,他是对抗样本领域许多研究的推动者。

通过只改变深度神经网络输入的图像的百分之四,研究人员能够以97%的成功率欺骗它,使其误分类图像。即使在不知道网络如何处理图像的情况下,他们也能以近85%的准确率欺骗网络。后者研究,即在不知道网络架构的情况下欺骗网络,被称为“黑盒攻击”。这是对深度学习系统进行功能性黑盒攻击的首次记录,这一点很重要,因为这是现实世界中最可能出现的情况。

在该论文中,来自宾夕法尼亚州立大学、谷歌和美国陆军研究所的研究人员实际上对一个分类图像的深度神经网络发起了一次攻击,该网络运行在MetaMind(一个面向开发者的在线工具)上。该团队构建并训练了他们攻击的网络,但他们的攻击算法独立于该架构运行。利用攻击算法,他们能够以高达84.24%的准确率迫使一个黑盒算法认为它看到的是其他东西。

AI sign classifications
顶行显示了原始图像及其相应的分类。底行显示网络成功地被欺骗,认为每张标志都与原始图像不同。Nicolas Papernot

向机器展示不正确信息这种行为并非新事物,但研究对抗性机器学习已有10年经验的加州大学伯克利分校教授道格·泰加(Doug Tygar)表示,这种攻击技术已从简单的机器学习转移到了更复杂的深度神经网络。多年来,恶意攻击者已将这项技术用于垃圾邮件过滤器等领域。

泰加的研究源于2006年一篇关于对抗性攻击机器学习网络的论文,他于2011年与加州大学伯克利分校和微软研究院的其他研究人员一起对其进行了扩展。率先将该技术应用于深度神经网络的谷歌团队于2014年发表了他们的第一篇相关论文,这是他们在发现攻击可能性两年之后。他们想确保这确实是可能的,而不是一个异常现象。他们于2015年又发表了一篇论文,其中找到了一种保护网络并提高其效率的方法,此后伊恩·古德费洛(Ian Goodfellow)为包括黑盒攻击在内的其他该领域论文提供了咨询。

安全研究人员将不可靠信息的更大范围概念称为“拜占庭数据”,通过这一系列研究,它已经发展到深度学习。拜占庭数据一词来源于“拜占庭将军问题”,这是一个计算机科学中的思想实验,其中一群将军必须通过信使协调他们的进攻,但又不确定队伍中是否存在叛徒。因此,他们无法信任来自同伴的信息。

“这些算法被设计用来处理随机噪声,而不是为处理拜占庭数据而设计的,”泰加说道。

为了理解这些攻击是如何工作的,古德费洛建议将神经网络想象成一个散点图。

散点图上的每个点代表网络正在处理的图像的一个像素。网络通常会试图在数据中绘制一条最适合所有点的直线。这比听起来要复杂一些,因为每个像素对网络来说都有不止一个值。实际上,这是一个计算机必须进行分类的复杂的多维图。

但在我们对散点图的简单类比中,穿过数据的线条形状决定了网络认为它看到了什么。要成功攻击这些系统(通过迫使它们误分类输入),研究人员只需改变一小部分点,就可以引导网络得出实际上并不存在的结论。这些被修改的点超出了网络认为是熟悉的范围,因此它会犯错误。在将校车伪装成鸵鸟的例子中,校车照片中嵌入了像素,其模式被设计成与网络熟悉的鸵鸟照片具有独特的特征——并非可见的轮廓,但当算法处理并简化数据时,极端的鸵鸟数据点被视为一个有效的分类选项。在黑盒场景中,研究人员通过测试输入来确定算法如何看待某些对象。

image classification graph
图像分类器根据图像中的不同对象绘制不同线条的示例。对抗样本将在图上被视为极端值。Ian Goodfellow

通过向图像分类器提供错误输入并观察机器做出的决策,研究团队得以反向工程算法,欺骗可能用于自动驾驶汽车识别停止标志为让行标志的图像识别系统。一旦他们弄清楚了漏洞是如何工作的,他们就能设计出一种方法,让机器看到任何他们想要的东西。

研究人员表示,这种攻击可以直接注入图像系统,绕过摄像头,或者这种篡改甚至可以在现实世界中应用于标志本身。

然而,哥伦比亚大学安全研究员艾莉森·毕晓普(Allison Bishop)认为,这种攻击可能不切实际,具体取决于自动驾驶汽车使用的系统类型。她说,如果攻击者已经能够访问摄像头的馈送信号,他们就能提供任何想要的输入。

“如果我能绕过摄像头的输入,我就不需要这么费力了,”她说,“你只需给它看一个停止标志就行了。”

毕晓普认为,另一种攻击方法,即不绕过摄像头而是直接在标志本身上绘制扰动,似乎也有些牵强。她怀疑低分辨率的摄像头(如目前自动驾驶汽车使用的摄像头)是否能够识别标志上如此细微的失真。

bus classified by AI
左图是未被修改的图像,将被分类为校车;而右图将被分类为鸵鸟。中间的图像显示了对抗样本所做的改动。Christian Szegedy

两个团队,一个在加州大学伯克利分校,另一个在乔治城大学,已经成功开发出能够以人类无法识别的声音脉冲发出语音命令的算法,用于Siri和Google Now等数字个人助理。对于人类来说,这些命令听起来就像随机的白噪音,但它们可以被用来指示亚马逊Alexa等语音助手执行其主人从未意图的操作。

其中一位拜占庭音频研究员尼古拉斯·卡尔里尼(Nicholas Carlini)表示,他们的测试能够成功激活开源音频识别器、Siri和Google Now,在所有三个平台上准确率都超过90%。

这种噪音听起来像科幻电影中的外星人信号。它是一种混乱的白噪音和人声的混合体,但肯定无法识别为命令。

卡尔里尼说,通过这种攻击,任何听到这种噪音的手机(他们必须专门针对iOS或Android)都可能被不知不觉地强迫访问播放这种噪音的网页,从而感染附近的其他手机。在同一种情况下,该网页还可以悄无声息地将恶意软件下载到设备上。还有可能将这些噪音通过广播播放,隐藏在白噪音或背景音频中。

古德费洛说,这些攻击之所以会发生,是因为机器被训练成认为几乎所有输入都包含可读或重要的数据,并且还认为某些事物比其他事物更常见。

更容易欺骗网络让它认为它看到了一个常见物体,因为它认为它应该更常见地看到它。这就是为什么古德费洛和怀俄明大学的一个独立团队能够让网络在什么都没有的情况下将图像分类,通过让它识别白噪音、随机生成的黑白图像。

在古德费洛的研究中,他输入网络的人工白噪音最常被分类为马。这恰好又将我们带回了前面提到的、并非真正精通数学的“聪明的汉斯”。

古德费洛说,与聪明的汉斯一样,这些神经网络并没有真正学习某些概念,而只是学会了何时能找到正确概念的识别方法。这种区别很细微,但很重要。这种基础知识的缺乏使得恶意地重现算法“找到”正确结果(实际上是错误答案)的体验变得容易。为了理解什么是事物,机器还必须理解什么不是事物。

古德费洛发现,当他在训练图像分类网络时,同时使用了自然图像和经过篡改的图像(并明确指出它们是假的),他不仅能够将攻击效率降低90%以上,而且网络的原始任务表现也更好。

“当你开始强迫它们解释那些非常不寻常的对抗样本时,它可能会对底层概念提出更鲁棒的解释,”古德费洛说。

这两个音频团队也采用了与谷歌研究人员相同的方法,通过重新训练他们的网络来修补语言识别系统,使其免受自身攻击。他们取得了类似的成功,攻击效率降低了90%以上。

该研究领域引起美国军方的兴趣也就不足为奇了。事实上,陆军研究所至少资助了最近的两篇论文,包括黑盒攻击。尽管陆军实验室积极资助研究,但这并不意味着这项技术正在积极开发用于战场。据一位发言人称,研究通常需要十年以上的时间才能真正应用到士兵手中。

美国陆军研究所研究员阿南特拉姆·斯瓦米(Ananthram Swami)参与了近期几篇关于对抗性攻击的论文。陆军的兴趣在于检测和阻止故意具有欺骗性的数据,在这个信息来源并非都能得到妥善验证的时代。斯瓦米指出,来自大学和开源项目设置的公共传感器提供了大量数据。

“我们并不一定控制所有这些数据。对手很可能很容易欺骗我们,”斯瓦米说。“其中一些可能是良性的,有些则可能不是。”

他还表示,由于陆军在自动驾驶机器人、坦克和其他车辆方面拥有既得利益,因此这项研究是显而易见的。通过现在研究这一点,陆军将能在战场上领先于能够免疫潜在对抗性攻击的系统。

然而,任何使用深度神经网络的组织(这是一个快速增长的群体)都应该对对抗性攻击的潜在性感到担忧。尽管机器学习和人工智能系统仍处于起步阶段,但我们正处于一个危险的时期,安全上的疏忽可能导致灾难性的后果。许多公司将高度敏感的信息交由人工智能系统处理,而这些系统尚未经受时间的考验。我们的人工智能系统还太年轻,我们无法完全了解它们。

类似的疏忽导致了微软的Twitter聊天机器人Tay,它迅速变成了一个种族主义的纳粹分子。大量的恶意数据以及可预见的糟糕的“跟我说”功能,导致Tay严重偏离了其原始编程。该聊天机器人被来自现实世界的糟糕训练数据劫持,并成为一个很好的例子,说明了当机器学习实施不当时可能发生什么。

坎切利安表示,他认为即使有了谷歌团队有希望的研究,这些攻击的大门也并非完全关闭。

“至少在计算机安全领域,不幸的是,攻击者总是在我们前面,”坎切利安说。“所以,说我们通过重新训练解决了所有对抗性机器学习的问题,会有点危险。”

 

更多优惠、评测和购买指南

 
© .