

虽然很容易沉湎于人工智能的潜在威胁,但该领域更常承诺的是改善人类生活。人工智能算法旨在帮助我们与朋友联系、查找信息,甚至在物理世界中运输我们。
从今天开始,Facebook 将利用人工智能为 Facebook 上的每张照片自动生成文本描述,为盲人或视障人士提供急需的可访问性。
由于开发人员希望 AI 生成的文本极其准确,他们仅使用 100 种不同类型的物体图像对其进行了密集训练,因此目前它仅限于识别人类、披萨、棒球等,但随着研究的进展,描述将变得越来越通用和复杂。
为了浏览互联网,视障人士经常依赖屏幕阅读器,屏幕阅读器会朗读屏幕上的文字。然而,屏幕阅读器的能力仅限于它们可以读取的内容。如果文本缺失,它们就无法读取。网络标准规定图像应该有一个名为“alt 文本”的字段,用文字描述图像的内容。然而,在大多数 Facebook 图片上,屏幕阅读器可用的唯一文本是与照片一起发布的帖子状态。
通过应用人工智能算法,Facebook 能够扫描每张图像并提取有关其内容的信息。如果有人发布了一张披萨的照片,该算法将能够自动将“披萨”一词添加到图像的 alt 文本中,以便屏幕阅读器可以将其读给用户听。这些描述不会被该社交网络的大部分 15 亿用户看到,但它标志着那些在日益视觉化的平台上无法看到照片的人们的一个转变。
Facebook 正在利用这一机会来民主化其研究方式。该公司的可访问性和人工智能团队将收集用户反馈,并利用这些反馈来指导进一步的研究。3 月份,Facebook 与康奈尔大学合作发布了一项研究,探讨盲人如何使用 Facebook,希望能开发出针对社区需求的产品。
Paluri 说:“研究应该由人们的需求驱动,而不是由我们研究中的东西来驱动使用。“反馈让我们能够进行更多调查。”
识别和描述图像的挑战是人工智能领域的一个重要研究类别。新技术和硬件使得深度学习成为可能,通过利用人工神经网络层,或者模仿大脑神经元的微小数学方程簇,来处理数据并寻找模式。这些技术可以应用于图像、音频、文本,或者几乎任何类型的数据。在图像中,一张猫的照片中的模式与一张海豚照片中的模式是不同的。
但单个物体很简单。当物体相互作用,或者当行动周围有上下文时,情况就复杂得多,因为机器需要真正了解一些关于物理世界的东西,并知道物体之间的关系。对于一个初级的机器来说,没有重力、没有家庭关系,也没有爱。只有数据。
所以,要理解一对父女正在一条徒步小径上行走,或者一只猫正在床上,机器必须首先了解物理世界。
而这正是 Facebook 的可访问性团队所需要的。目前,他们有这些被识别出来的物体,称为标签。一个标签是一只猫,一个标签是一张床,一个标签是一个人。有了这些信息,他们就可以说一张照片中有四个人拿着冰淇淋,或者有一个披萨。
Paluri 说:“我们的目标是达到一个可以描述远不止标签的阶段。标签如何相互作用?标签之间的关系是什么?“不仅仅是说‘猫’和‘床’。你想说‘猫在床上’,或者‘猫跳过床’。所以这是一个起点。”
这在很多方面都是一个起点。该团队不仅梦想着更具上下文的物体识别,还梦想着让识别更具交互性。Paluri 提出了一个潜在的功能,用户可以点击图像的不同部分来听到特定的信息。
但在 Facebook 的规模上工作,精度必须是重中之重。每天有 20 亿张图片在 Facebook、Instagram、Messenger 和 WhatsApp 上分享,因此即使 1% 的错误也意味着数百万次的失误。工程师根据正确分类物体的importance,手工调整了算法能检测到的约 100 个概念。例如,算法对于性别等事物需要比物体是否是披萨更确定的判断。它能以 80% 到 99% 的置信度识别其 100 个库中的物体。Facebook 表示,它能在超过 50% 的 Facebook 照片中识别出至少一个物体。
机器能够理解的概念大多数是关于人物和物理物体的。它知道眼镜、棒球,甚至自拍。然而,根据 Paluri 的说法,有些概念是团队故意不包含的。其中就包括某些动物。
人工智能系统犯的错误,尤其是在图像分类方面,可能具有文化敏感性,就像去年 Google 的 Photos 应用将黑人标记为大猩猩一样。Paluri 说:“为了避免这种情况,我们希望从我们非常有信心的地方开始,并且有很多积极的反馈。”
信心也可以是更无伤大雅的。Paluri 提到了猫爪。
他说:“角落里可能有一个猫爪。图片里还有猫吗?这是一个悬而未决的问题。“也许这张图片的主题是猫爪,这让它很有趣。”
研究可以有许多方向,包括尝试检测幽默。但无论如何,任何改进都将取决于更好的算法,这些算法受到真实需求的启发。人工智能的承诺是让人们的生活更轻松。我们正在外包机器可以取代我们大脑的部分。通过使用软件来增强自身,世界将变得更加可访问。
该功能现已在 Facebook 的 iOS 应用上提供,并将很快推广到其他平台以及英语以外的语言。