观看用于训练 AI 识别不同动作的奇怪视频

你如何教会电脑识别“戳”或“购物”?
你知道这个人是在跳跃,因为你是一个人类。但电脑需要被教会。照片由Tommaso Fornoni在Unsplash拍摄。

通过 GIPHY

考虑动词“移除”。作为一个人类,你理解这个词可以有不同的用法——而且你知道在视觉上,场景看起来会根据什么东西被从什么东西上移除而有所不同。从一大块蜂巢中拉出一块蜂巢,看起来与将防水布从田野中拉走,或将屏幕保护膜从智能手机上分离,都是不同的。但你明白了:在所有这些例子中,都有东西被移除了。

然而,计算机和人工智能系统需要被教会这些动作看起来是什么样的。为了帮助实现这一目标,IBM最近发布了一个包含三秒钟视频剪辑的大型新数据集,供研究人员用来训练他们的机器学习系统,通过提供“瞄准”、“潜水”和“除草”等动作动词的视觉示例。探索它(上面的汽车视频和下面的蜜蜂视频来自该数据集,并说明了“移除”)提供了一个奇异的观察机器学习“香肠制作过程”的途径。在“眨眼”项下,观众可以看到乔恩·哈姆饰演的唐·德雷珀的一个眨眼镜头,以及《辛普森一家》中的一个场景;还有更多类似的例子。在此 查看数据集的一部分—总共有300多个动词和一百万个视频。

通过 GIPHY

教会电脑如何理解视频中的动作比让它们理解图像要困难。“视频更难,因为如果我们与物体识别进行比较,我们所处理的问题在复杂性上要高一个层次,”IBM-MIT联合实验室的研究员Dan Gutfreund说。“因为物体就是物体;热狗就是热狗。”与此同时,他表示,理解动词“打开”是棘手的,因为狗张开嘴巴,或者人打开门,看起来会不同。

该数据集并不是研究人员创建的第一个帮助机器理解图像或视频的数据集。一个名为ImageNet的数据集在教会计算机学习识别图片方面发挥了重要作用,并且已经存在其他视频数据集:一个名为Kinetics,另一个专注于体育,还有一个来自中佛罗里达大学,其中包含“篮球扣篮”等动作。

但Gutfreund说,他们新数据集的一个优势是它专注于他称之为“原子动作”的内容。这些包括基本动作,从“攻击”到“打哈欠”。Gutfreund说,将事物分解成原子动作比关注更复杂的动作(例如展示某人更换轮胎或系领带)对机器学习更好。

最终,他说他希望这个数据集能帮助计算机模型像我们人类一样轻松地理解简单的动作。

 

更多优惠、评测和购买指南

 
Rob Verger Avatar

Rob Verger

技术编辑

罗布·沃格尔是《流行科学》杂志的前技术编辑。他擅长报道航空、交通和军事技术。


© .