Shutterstock 已训练计算机为您找到完美的照片

计算机视觉可以显示您真正想要的图像

我设想一辆自行车停在篱笆旁边。它在某个欧洲城市,有狭窄的鹅卵石街道,篱笆后面是一栋看起来很老的砖砌建筑。自行车是闪闪发光的蓝色,带有一个篮子,有点老式。你看不见天空,但你能看出这是个有点晴朗的日子。

我根本不可能在网上找到这样一幅场景的图片。当然,我可以输入诸如“欧洲篱笆旁边的蓝色自行车”之类的关键词,运气好的话,它会显示一些勉强相关的结果。如果我碰巧有这样的图片,我的机会会稍好一些——这样,我就可以进行反向图片搜索,并且可以浏览不仅仅是英文的网站。但很多时候,结果会显得很奇怪,感觉不对,或者缺失了我脑海中场景的关键组成部分。

电脑仍然无法读懂我们的心思。但图库图片网站Shutterstock创造了一种全新的图像分类方式。该公司今天在其网站上推出的新工具,是近期但快速发展的计算机视觉领域众多创新之一。Shutterstock希望它能将您将脑海中的图像与屏幕上的图像进行匹配的令人沮丧的过程,变成一件真正有趣的事情。

一图胜千言

在网上找到合适的图像很难,因为大多数搜索引擎依赖于关键词。例如,如果用户将那张自行车图片上传到Shutterstock的网站,她会提供所有的关键词。如果她上传的是一系列相似的图片,其中一些关键词可能不适用于每张单独的图片。

“所有这些关键词加在一起可能会很奇怪——这就是当你把媒体当作一个词袋来看待时固有的问题之一,”Shutterstock搜索和发现工程副总裁Kevin Lester说道,他是新计算机视觉工具背后的工程师之一。

因此,许多图像数据库会用用户行为来填补这些空白。如果搜索“自行车”和“篱笆”的人更常下载某张特定的图片,那么它可能就包含这两样东西。Lester说,这是一个简单的概念,但仍然不完美。

计算机视觉可以彻底改变这一切,因为它首先消除了对关键词的需求。通过一系列算法,模型可以逐步扫描图像中的每个像素,找出其中的不同特征——颜色、形状、角度的锐度。每一次计算都是深度学习网络的一层。在这个过程的最后,程序会生成一个数字,一个向量。如果模型很好,数字越相似,它们量化的图像就越相似。模型会训练自己识别这些特征,所以输入的图像越多,模型就越好。

Computer vision
Krizhevsky 等人,2012年

作为一个领域,计算机视觉真正出现是在2012年,当时多伦多大学的三名研究人员发表了一篇论文,这篇论文后来被认为是该学科的转折点。

然而,仅仅四年时间,计算机视觉就对许多科技公司至关重要。Facebook的模型可以以超过97%的准确率识别图片中的人脸;谷歌的模型可以以99%的准确率解决那些旨在排除机器人、验证用户是人类的验证码难题。

计算机视觉模型可以用于许多不同的应用,但它通常是为特定任务而训练的。Shutterstock正在使用它来检测视觉上相似的图像并进行反向图片搜索。

像计算机一样看

人们在Shutterstock网站上发现图像的主要方式之一是“视觉相似”类别。当你点击一张图片时,底部出现的那些图片就是。就像这样

Visually similar
Shutterstock.com 截图

如果系统依赖于关键词,返回的图像有时相关,有时不相关。它不一致且零散。对于Shutterstock的第一个计算机视觉模型,工程师们使用了2012年那篇论文中概述的初步方案,并在该网站的7000万张图库图片上进行了训练。即使那样,效果也不是很好。

Visually Similar Shutterstock 1
由Shutterstock提供

Lester说:“我认为没有人会认为这些图片非常相似,除了颜色组合似乎有些一致。”

工程师们调整了模型,然后给了它几周的时间在数据上重新训练,以了解图像的特定特征。它稍微好了一些。

Visually Similar Shutterstock 2
由Shutterstock提供

又有几次迭代,但这是该工具最终版本中出现的搜索结果。

Visually Similar Shutterstock 3
由Shutterstock提供

通过内部测试,Shutterstock表示,他们的新视觉相似工具比他们过去依赖关键词的工具有了显著的改进。现在,每当有人在其网站上点击一张图片时(这种情况经常发生——该公司每秒售出4.7张图片),算法就会搜索7000万张照片,以提供它认为最相似的图片。该网站还将其400万个电影片段(该公司不断增长的业务领域)也使用了该工具。

重要的是,它可以在短短200毫秒内完成搜索——这是该公司旧模型时间的一半。虽然200毫秒的差异听起来可能不多,但Lester说,这对不耐烦的客户来说意义重大。他说:“当我们加快速度时,我们发现人们搜索得更多,因为我们降低了他们搜索的成本,这意味着他们更多地浏览我们的网站。这反过来又意味着他们更有可能注册成为客户。”

有些类型的图像对Shutterstock的计算机视觉工具来说比其他图像更具挑战性。Lester说,训练系统处理抽象图像花的时间更长,而且有时它可能会将水印解释为图像的重要部分。

Lester说:“系统的智能程度取决于你训练它的内容。如果有些东西超出了它的能力范围,它的表现就会不太好,因为它会将其强行套入它理解的东西中。”但由于其庞大的数据库,并且随着贡献者添加更多图片而不断变化,该公司优秀的模型只会越来越好。

卡内基梅隆大学的计算机视觉教授Simon Lucey在使用Shutterstock的网站时,对结果印象深刻。他说:“他们所做的代表了目前计算机视觉领域正在发生的事情:深度学习取得了重大进展。对于许多任务,这些模型正在达到人类级别的性能。”

Lucey说,让计算机“理解”图像,而不仅仅是捕捉图像,一直是计算机科学的圣杯已有段时间了,而硬件和软件的改进使这项技术得以实现。他补充说,Shutterstock的工具正是利用了这一进步浪潮。

极限并不存在

随着像Shutterstock这样的模型不断改进,工程师们会遇到语义或哲学上的问题。Lester说,在某个时候,人们对于如何定义相似图像会有不同的看法——那时他就会知道他的团队可以停止改进模型了。然后,不可避免的是会冒犯到某人,就像去年谷歌的工具将一名女性标记为大猩猩一样。

Lester说:“当计算机对图像做出错误的假设,认为这个图像实际上是那个东西,并且这是一种糟糕的、可能令人反感的关联时,你就会开始遇到计算机视觉的麻烦区域了。”为了避免谷歌遇到的问题,Shutterstock的团队识别了潜在的问题区别,并在这些图像上重新训练了模型。Lester说,如果模型在这些领域足够智能,它就不会再做出那些令人反感的关联了。

最终,Shutterstock这样的网站可以使用计算机视觉来驱动新型搜索,或与图像互动的新方式。有一天,你可以通过在你看到的明星穿着的鞋子上拖出一个框来搜索它们——你不需要描述鞋子,甚至不需要知道穿鞋人的名字。

Lester说:“当你开始改变你的发现体验,使其更多地基于像素时,你可以以行业至今未见过的方式影响你的搜索。”

总的来说,计算机视觉的应用似乎是无限的。当与机器人技术和人工智能等其他技术相结合时,计算机视觉可以帮助自动驾驶汽车看到行人,或者使机器人能够正确抓取物体,或者帮助盲人看见

Lucey预测,我们还会遇到更多问题——关于隐私,关于随着行业转型人们失业——但他相信计算机视觉是一种可以用来让世界变得更美好的力量。

他说:“我认为,就像视频压缩一样,计算机视觉最终将变得不那么引人注目。我们会觉得理所当然。它就是会起作用。我认为这是好技术的标志,好技术本身不再显眼。”

随着Shutterstock的新工具今天推出,我们离这个现实又近了一步。Lester和他的同事们很高兴看到客户将如何使用它。Shutterstock搜索和发现产品总监Lawrence Lazare说:“将它推向市场最令人兴奋的是看到人们想要什么以及他们如何使用它。有时人们的使用方式和你想象的不一样。”

 

更多优惠、评测和购买指南

 
Alex 是一位居住在纽约市的科学作家。她曾为《大西洋月刊》、《Motherboard》、《Audubon Magazine》、《The Verge》和《Fast Company》等杂志撰稿。当她不沉迷于科学时,Alex 喜欢旅行、徒步、瑜伽,以及(尝试)烹饪新食物。

© .