Facebook 利用数十亿张带标签的 Instagram 照片来训练其 AI

标签实际上对训练计算机视觉系统很有用。
bears
Instagram 上的 #棕熊。Instagram

考虑 Instagram 标签。当有人将照片上传到 Facebook 旗下的平台时,他们可以添加一个标签。这可能像 #love、#fashion 或 #photooftheday——这些是去年排名前三的标签。虽然这些标签阐述了抽象概念,但还有许多更具体的描述符,例如 #brownbear(棕熊),不出所料,其中充满了熊的照片。

虽然标签是人们在一个地方看到数百万张 #travel 照片的好方法,但 Facebook 利用这些带标签的照片做了另一件事:训练他们的图像识别软件,这是一种称为计算机视觉的人工智能,通过这种技术,你可以教计算机识别图像中的内容。

事实上,他们使用了大约 35 亿张 Instagram 照片(来自公开账户)和 17,000 个标签来训练一个计算机视觉系统,他们说这是他们迄今为止创建的最佳系统。

Facebook 的首席技术官 Mike Schroepfer 在公司开发者大会 F8 上宣布了这项研究,称其结果是“最先进的”。

糟糕的监督

要理解为什么这是一种有趣的方法,了解人工智能系统的“完全监督”和“弱监督”训练之间的区别会很有帮助。计算机视觉系统需要被教会识别物体。例如,向它们展示标有“熊”的图像,它们就可以学会识别它们认为在新照片中是熊的图像。当研究人员使用人类标注的照片供人工智能系统学习时,这被称为“完全监督”。图像被清晰地标记出来,以便软件可以从中学习。

“这效果很好,”Facebook 应用机器学习组的计算机视觉负责人 Manohar Paluri 说,该组与社交网络上的另一个部门 Facebook AI Research 一起进行了这项研究。这种方法的唯一问题是,图像首先需要被标注,这需要人工工作。

“达到(标注图像)数十亿张开始变得不可行,”Paluri 补充道。在人工智能领域,系统可以从中学习的数据越多,通常就越好。多样化的数据也很重要——如果你想教人工智能系统识别婚礼的样子,你不想只展示来自北美的婚礼照片,而是要展示来自世界各地的婚礼。

“弱监督”学习应运而生,在这种学习中,数据没有被人为地精心标注以用于教导人工智能。这正是所有那些数十亿张 Instagram 照片发挥作用的地方。这些标签成为众包标注工作的一种方式。例如,标签 #brownbear(棕熊)与相似的标签 #ursusarctos(熊属)结合起来,就成为熊图像的标签。Instagram 用户成为了标注者。

但这种数据是混乱且不完美的,因此也存在噪声。例如,Paluri 指出,在埃菲尔铁塔附近拍照的人仍然可能给照片打上那个标签,但塔本身却不可见。在人类语境中,这个标签仍然有意义,但对于一个思维简单的计算机来说,它并没有多大用处。在另一种情况下,一个有蛋糕的生日聚会场景可能不会被标记为 #cake(蛋糕),如果你试图教计算机这种甜点看起来是什么样子,这也没有帮助。

Facebook
Facebook 图像识别系统过去可以进行的图像分类示例。Facebook
Facebook
新系统更精确:它可以识别一种动物不仅仅是鸟类,而是东草地鹪鹩。Facebook

总之,它起作用了

但最终结果是,尽管原始数据中存在噪声,Paluri 说最终它效果非常好。根据一项基准测试,这个系统——在数十亿张 Instagram 照片上进行训练——平均准确率约为 85%。Paluri 说,这是 Facebook 迄今为止最强大的计算机视觉系统。

如果你使用 Facebook,你知道它可以识别你上传照片中的人脸,并建议(希望是)正确的姓名进行标记。这就是计算机视觉的一个例子——在这种情况下,是人脸识别。但实际上,Facebook 使用计算机视觉来识别除人脸以外的其他事物,例如平台上不允许的视觉内容(如色情内容)。

Paluri 说,新的、由 Instagram 训练的技术已经开始被用来帮助他们标记不应该出现在网站上的令人反感的内容。他说,在识别“令人反感的内容”方面,他们已经注意到了“准确性的显著提高”。

 

更多优惠、评测和购买指南

 
Rob Verger Avatar

Rob Verger

技术编辑

罗布·沃格尔是《流行科学》杂志的前技术编辑。他擅长报道航空、交通和军事技术。


© .