

在皮克斯电影《飞屋环游记》中,一只名叫道格的卡通狗戴着一种魔法项圈,可以将它的吠叫和呜咽翻译成流利的人类语言。在现实世界中,一些训练有素的狗可以学会按按钮,发出类似“出去”、“散步”和“玩”等简单指令的语音。人类一直对与他们共享这个世界的沟通潜力着迷,最近,凭借其日益先进的机器学习能力来解析人类语言,它为动物翻译提供了一条充满希望的途径。
本周《纽约时报》的一篇文章记录了五组研究人员在利用机器学习算法分析啮齿动物、狐猴、鲸鱼、鸡、猪、蝙蝠、猫等动物叫声方面所做的重大努力。
通常,人工智能系统通过使用标记数据进行训练来学习(这些数据可以来自互联网或电子书等资源)。对于人类语言模型来说,这通常涉及给计算机一个句子,然后屏蔽掉某些词,让程序来填空。现在也有更具创造性的策略,旨在将语音与大脑活动相匹配。
但是,分析动物语言与分析人类语言是完全不同的。计算机科学家必须指导软件程序要寻找什么以及如何组织数据。这个过程在很大程度上不仅取决于收集大量的声音录音,还取决于将这些声音录音与动物的视觉社交行为相匹配。例如,一个研究埃及果蝠的团队还使用了摄像机来记录蝙蝠本身,为它们的叫声提供背景信息。而正在研究鲸鱼的团队计划使用视频、音频以及可以记录动物运动的标签来破译鲸鱼交流的语法、语义以及最终的意义和原因。当然,也有几个团队提出通过播放录音给动物听,并观察它们的反应来测试他们构建的动物词典。
为动物创建一个谷歌翻译是一个多年来一直存在的愿景项目。机器学习在检测动物存在甚至在某些情况下根据叫声准确识别动物方面也取得了长足的进步。(康奈尔大学的 Merlin 应用在匹配鸟类物种和它们的叫声方面非常准确。)尽管这类软件在根据动物发声的特征(如频率或响度)识别某些动物的基本词汇,以及将叫声归因于特定个体方面取得了一些成功,但距离理解动物语言可能包含的所有复杂细微差别还有很长的路要走。
[相关:有了新的标签,研究人员可以追踪鲨鱼进入海洋“暮光之城”的漆黑深处]
许多对此方法持怀疑态度的人指出,当前 AI 语言模型在真正理解词语与它们在现实世界中所指代的物体之间的关系方面存在不足,并且科学家对动物社会的整体理解也存在不足。人类的 AI 语言模型依赖于计算机对词语之间的关系以及它们可能出现的上下文(它们在句子中的位置以及它们可能指代的内容)进行映射。但这些模型本身也存在缺陷,有时会成为一个黑箱——研究人员知道输入和输出,但并不完全理解算法是如何得出结论的。
研究人员正在考虑的另一个因素是,动物的交流可能根本不像人类的交流那样运作,而人类倾向于拟人化它们可能会导致结果产生偏差。由于生理和行为差异,动物语言可能存在独特的元素。
鉴于无法提前知道数据参数,根据今年早些时候《华尔街日报》的一篇报道,有人提出使用自监督学习算法来分析音频数据,在这种方法中,计算机告诉研究人员它在数据中看到哪些模式——这些模式可能会揭示人眼可能忽略的联系。最终,人类在试图理解动物交流的“兔子洞”里走多远,取决于人类对这类研究的目标,而对于这个目的来说,掌握基本信息可能就足够了。例如,一个能够可靠地解释我们经常密切接触的动物是快乐、悲伤还是处于危险中的翻译器,可能既有用又更具实用性。