


即使撇开邪恶人工智能统治世界的恐惧不谈,人工智能领域对局外人来说也可能令人生畏。人工智能总监 Yann LeCun 用一个类比来形容人工智能,他说它就像一个带有一百万个旋钮的黑匣子;大多数人对它的内部运作一无所知。但现在,我们可以一窥其内部了。
瑞尔森大学硕士生 Adam Harley 构建了一个交互式可视化,帮助解释卷积神经网络(一种用于分析图像的人工智能程序)是如何在内部工作的。
正如在交互式可视化中所见,神经网络按顺序分层工作。底部是输入,即计算机试图理解的原始想法——在本例中是你绘制的一个数字——顶部是输出,即计算机的最终结论。中间是数学函数层,每一层都浓缩最重要的区分信息,并将其传递给下一层。

输入(底行)中的绿色像素对应于你绘制的内容,而黑色则是数字必须与之区分的背景。如果这是试图检测人脸,那么 3 就是人脸,黑色就是照片的背景。在每个阶段,我们看到的是图像在每个步骤后的样子,而不是步骤本身。
在神经网络中,前几层主要关注边缘和形状等内容,提取出一般的视觉概念,寻找可以提取出来的不同区分特征,以强调形状与其周围环境的不同之处。
这些层中的每一层都经过预先调整以识别这些数据,这个过程称为训练。训练通常意味着将成千上万,甚至数百万个示例输入到机器中,以展示不同类型的“3”是什么样的。对于所有类型的人工智能和机器学习,都使用相同的过程和不同的源材料。谷歌在其语音识别软件上训练了使用其服务的用户的随机语音样本,而 Facebook 则在其面部识别算法上训练了不同角度的人脸图像。
训练需要将数百万个示例输入到机器中。
第一层传递的数据被第二层(称为下采样层,因为它降低了数据的复杂性)简化。然后,第三层(与第一层一样,也是一个卷积层)再次分析形状。该神经网络有两个卷积层,而更复杂的网络可能有 10 个以上。
然后,这组形状和边缘被处理并与一组预定的输出进行匹配,最终得出一个强烈的概率,表明用户绘制的是 3(也可能是 8)。你可以在数据逐层进行的颜色变化中看到这一点。你绘制的那个绿色数字最终成为了表示(希望如此)正确输出的绿色信息。
在 Harley 的模型中,计算机可以区分数字,就像最初的卷积神经网络用于读取 ATM 机支票存款一样。尖端的人工智能要复杂得多,能够以 97% 的准确率识别面孔。
眼见为实。 亲自尝试人工智能!
[通过 Samim Winiger]