Meta 刚刚发布了一个帮助计算机“看到”图像中物体的工具

您现在就可以在浏览器中试用该模型。
figure with mixed reality headset
分割是机器视觉的关键特性。Liam Charmer / Unsplash

在本周的博客文章中,Meta AI 宣布发布了一款新的人工智能工具,它可以识别图像中哪些像素属于哪个对象。该 Segment Anything Model (SAM) 执行一项名为“分割”的任务,这是计算机视觉的基础,计算机视觉是计算机和机器人用来“看见”和理解周围世界的过程。除了新的人工智能模型,Meta 还将其训练数据集提供给外部研究人员。

史蒂文·平克 (Steven Pinker) 在其 1994 年的著作《语言本能》(The Language Instinct) 中写道:“35 年人工智能研究的主要教训是,难题易,易题难。” 尽管称之为莫拉维克悖论,但三十多年后它仍然适用。像 GPT-4 这样的大型语言模型可以在几秒钟内生成像人类书写的文本,而机器人却难以拾起形状奇特的积木——这是一个看起来非常基础的任务,但孩子们在一岁生日前就会为了好玩而完成它。

分割就属于这种“看起来简单但技术上很难”的类别。你可以看着你的桌子,立刻就能分辨出什么是电脑,什么是智能手机,什么是纸堆,什么是揉皱的纸巾。但对于处理二维图像(因为即使是视频也只是一系列二维图像)的计算机来说,一切都只是一堆具有不同值的像素。桌面在哪里停止,纸巾在哪里开始?

Meta 的新 SAM AI 试图以一种通用的方式解决这个问题,而不是使用一个专门用于识别特定对象的模型,例如人脸枪支。根据研究人员的说法,“SAM 已经学习了物体是什么的一般概念,并且它可以为任何图像或任何视频中的任何物体生成掩码,甚至包括在训练期间未遇到过的物体和图像类型。” 换句话说,它不再只能识别它被教会看到的物体,而是可以猜测出不同的物体是什么。SAM 不需要被展示成百上千张不同的揉皱的纸巾来将其与你的桌子区分开,它对事物的普遍认知就足够了。

[相关:Facebook 转型 Meta 后的首批举措之一:教机器人触摸和感知]

你现在就可以在浏览器中试用 SAM,并使用你自己的图像。SAM 可以通过鼠标指针单击或绘制一个框来生成你选择的任何对象的掩码。它也可以为它在图像中检测到的所有对象创建掩码。根据研究人员的说法,SAM 还可以接受文本提示——例如:选择“猫”——但该功能尚未向公众发布。我们在《PopSci》上测试的图像分割效果相当不错。

Segment Anything 工具工作原理的可视化。Meta AI

虽然在线很容易找到大量的图像和视频,但高质量的分割数据要稀有得多。为了将 SAM 提升到这一水平,Meta 必须开发一个新的训练数据库:Segment Anything 1-Billion mask dataset (SA-1B)。它包含约 1100 万张授权图像和超过 11 亿个分割掩码,“具有高质量和多样性,在某些情况下甚至在质量上可与之前小得多的、完全手动标注的数据集中的掩码相媲美。” 为了“使分割民主化”,Meta 将其发布给其他研究人员。

这款新 AI 工具的一些行业应用。Meta AI

Meta 对其分割计划寄予厚望。可靠、通用的计算机视觉仍然是人工智能和机器人领域未解决的问题——但它有很大的潜力。Meta 建议 SAM 有一天可以识别通过增强现实 (AR) 眼镜看到的日常物品。该公司另一个名为Ego4D 的项目也计划通过不同的视角来解决类似的问题。这两者最终都可能催生出允许用户跟随一步一步的食谱指示,或者在狗碗上为伴侣留下虚拟笔记的工具。

更实际的是,SAM 在行业和研究领域也将有很大的潜在用途。Meta 建议使用它来帮助农民数牛或生物学家在显微镜下追踪细胞——可能性是无穷无尽的。

 

更多优惠、评测和购买指南

 
Harry Guinness Avatar

Harry Guinness

撰稿人

Harry Guinness 是一位爱尔兰自由作家兼摄影师。他一年中的大部分时间在爱尔兰和法国阿尔卑斯山之间度过。Harry 的作品发表在《纽约时报》、《流行科学》、OneZero、Human Parts、Lifehacker 等数十家媒体上。他撰写关于科技、文化、科学、效率以及它们碰撞的文章。


© .