微软的重大更新可能将人工智能带入你的应用程序

一款新程序可以识别人类的情感

作者：Dave Gershgorn

发布于 2015 年 11 月 12 日上午 12:25 EST

这对人工智能来说是重要的一周：周一，谷歌公开了 TensorFlow，这是一个强大的机器学习平台，研究人员可以利用它来创建自己的人工智能程序。周二，英伟达宣布对其超级计算机芯片 Jetson TX1 进行重大更新。现在，微软更新了其名为Project Oxford的人工智能工具套件，增加了一系列强大的新功能，这些功能很快就会出现在我们所有人使用的应用程序中，其中包括一个可以识别人类情感的程序，以及另一个可以在嘈杂房间里识别出特定人声音的程序。

这些重要的功能包括一系列新的应用程序编程接口 (API)，这些是微软以外的软件开发人员可以用来构建自己独立应用程序的工具。微软主要宣传了其情感 API，该 API 使用机器学习根据面部表情识别八种情绪状态（愤怒、蔑视、恐惧、厌恶、快乐、中立、悲伤或惊讶）。（这很像保罗·艾克曼（Paul Ekman）的研究工作，并被改编成 defunct 的电视剧“谎言游戏”。）

情感 API 今日上线，本周早些时候已在 MyMoustache 中首次亮相，MyMoustache 是一个用于 Movember 慈善活动的、用于识别胡子的网络应用程序。

微软表示，这可能有助于衡量客户对商店产品的反应，甚至可以用于响应式消息应用程序。

说到消息传递，微软还发布了一个拼写检查 API，该 API 改进了标准的、基于规则的检查器。该软件可以区分句子中的“for”和“four”，并随着人们的使用而学习流行表达（例如“selfie”）。微软尚未完全阐明在用户隐私方面，这些数据是如何存储和管理的。

这类似于Facebook 的机器学习在翻译方面的应用：该公司会抓取用户在 Facebook 上的帖子中的新短语和俚语，至少每月一次将其纳入 Facebook 的翻译器中，并且正在增加这种训练的频率。

在计算机视觉领域，微软还发布了一个视频 API，它可以检测抖动的摄像机运动、动作和人脸。该软件可以用于自动编辑视频，就像目前一些运动相机所做的那样，并且还用于Microsoft Hyperlapse。它将在年底前（测试版）提供。

为了涵盖大多数方面，微软还推出了两个 API，使理解人们的说话更容易：一个用于识别说话者，另一个可以在嘈杂的房间、带有口音或有说话困难的人群中识别人们所说的话。能够穿透噪音的那个被称为 Custom Recognition Intelligent Services，将在年底前通过邀请制提供。

口音和嘈杂的环境一直是人工智能系统识别的难点，但研究人员现在正在找到解决办法。例如，谷歌的语音搜索开发者在 A.I. 收听学习不同短语的样本时，实际上会添加噪音，使其更适合真实环境。

虽然谷歌的 TensorFlow 平台是面向研究人员和程序员的，但微软则通过专注于易于使用的 API 来面向应用程序开发者。有了这些更简单的工具，那些没有巨头公司支持的主流应用程序就能够将深度学习和人工智能集成到他们的应用程序中。人工智能是下一个软件前沿，而微软让小型开发者更容易参与进来。

© .