

无论是偶然还是有意,谷歌人工智能(AI)计划的细节一直难以捉摸。在某些情况下,这并不是什么真正的谜团,只是没有什么特别令人兴奋的事情可谈。人工智能技术是谷歌搜索引擎的基础,谷歌在2014年以4亿美元高调收购DeepMind最显而易见的原因是利用这家英国公司在深度学习方面的专业知识——这是人工智能研究的一个子集,但稍后会详细介绍——来增强其核心能力。但谷歌园区还吸纳了人工智能领域的其他优秀人才,以及一些备受瞩目的机器人公司,但只有一部分集体智慧被正式分配用于无人驾驶汽车、送货无人机或其他公开宣布的机器人或人工智能相关项目。谷歌的人工智能专家究竟在忙些什么?
一言以蔽之:食物。
在本周于波士顿举行的Rework深度学习峰会上,谷歌研究科学家Kevin Murphy公布了一个项目,该项目使用复杂的深度学习算法来分析食物的静态照片,并估算盘子里的卡路里含量。它被称为Im2Calories,在一个例子中,系统识别出图像中的两个鸡蛋、两个煎饼和三片培根。由于这些不是完全通用的测量单位,系统会根据食物的大小相对于盘子以及任何调味品进行估算。Im2Calories不需要精心拍摄的高分辨率图像。任何标准的Instagram质量的拍摄都可以。
那么最终的卡路里含量是多少呢?我在抄录那个特定演示文稿幻灯片上的其他数字时太忙了,没有注意到。Im2Calories的目的不是通过其令人震惊的日常食物摄入量计算来羞辱用户。Murphy只是想简化记录食物日记的过程,识别食物,这样您就不必手动将其输入应用程序,并消除服务大小等烦人的变量的猜测。“我们是半自动的,”Murphy在演讲中说,并指出您可以使用下拉菜单纠正软件,如果它将荷包蛋误认为是炒鸡蛋,或者完全误读了什么。“如果它只能工作30%的时间,那就足够让人们开始使用了,我们将收集数据,然后它会随着时间的推移而变得更好,”Murphy说。
尽管肥胖在美国仍然是一个危机,Im2Calories的商业版本可能会非常受欢迎,但更值得关注的是该系统的工作原理。与许多深度学习应用一样,它将视觉分析——在这种情况下,是确定图像中每个像素的深度——与模式识别相结合。Im2Calories可以建立特定食物的外观与大量可用卡路里数据之间的联系。虽然最好不要过度解读“深度学习”这个词,这是那些具有挑衅意味的人工智能词汇之一,几乎是在煽动非研究人员恐慌,但Im2Calories的设计目的是通过使用来改进自身。许多深度学习系统的目的是最大限度地减少在给软件喂食或提问方面花费的时间,以提高其性能。如果Im2Calories识别出一个汉堡,那是因为图像中的像素类似于现有汉堡照片中的像素,而不是因为研究人员在各种练习运行中“手把手”地指导了该系统。为了让深度学习变得有用,主要是通过从音频、视频、静态图像和文本中提取意义,它必须至少在某种程度上是自给自足的。
即使Im2Calories从未完全准确,Murphy认为它也会产生影响。“对我来说,很明显人们真的想要这个,而且这个非常有用,”他说。“好吧,也许我们估算的卡路里误差在20%左右。没关系。我们将平均一周、一个月或一年的数据。现在我们可以开始合并来自多个人的信息,并开始进行人口统计学统计。我的同事们在流行病学和公共卫生领域,他们非常想要这些东西。”
谷歌最近才为Im2Calories申请了专利,Murphy没有透露何时可以推出。但这项技术的长期目标更具广泛性。而且,坦率地说,更适合谷歌。“如果我们能做到这一点,那将是一个杀手级应用,”Murphy说。“假设我们进行了街景分析。我们不想仅仅说这条十字路口有汽车。那很无聊。我们想做的事情包括定位汽车、计算汽车数量、获取汽车的属性、它们朝向哪个方向。然后我们可以做交通场景分析,预测最有可能的停车位在哪里。而且由于所有这些都是从数据中学习到的,所以技术是相同的,你只需要改变数据。”
肥胖是一种祸害,值得谷歌调动所有复杂的语义图像分割和深度神经网络技术来应对。但机器人汽车能在十分钟内本能地知道哪个街区最有可能有一个空闲的停车位?难怪深度学习会引起硅谷如此大的兴趣。如果有什么值得惊讶的话,那就是它花了这么长时间。