观鸟者请注意:康奈尔大学的 Merlin 应用现已成为一站式观鸟识别服务

该应用程序新推出的“鸟类界的Shazam”功能得益于公民科学。以下是它的工作原理——以及为什么你应该下载它。
Red-winged blackbird singing.
这是谁在唱歌?康奈尔大学更新的Merlin应用程序可以倾听并找出答案。Drew Weber / 康奈尔大学鸟类学实验室麦考利图书馆

去年,随着疫情封锁限制在美国实施,新的观鸟爱好者涌向免费的Merlin Bird ID应用程序。该应用程序来自康奈尔大学鸟类学实验室,此前曾提供通过描述或照片识别附近不明鸟类的方式。今年夏天早些时候,它获得了一项更酷的功能:能够根据鸟鸣、叫声或鸣叫的短音频片段来识别鸟类。 

自2020年3月起,Merlin团队注意到应用程序下载量有所增加,并且这一趋势仍在持续。“我们不仅下载量增加,而且活跃用户数量也在持续增长,”Merlin的项目协调员Drew Weber说道。今年春天,有120万人(并且还在增加)在使用Merlin。“人们下载它,开始喜欢上观鸟,而且即使在封锁等现实情况发生变化的情况下,他们今年仍然对观鸟保持着热情,”他说。“这似乎激发了他们的兴趣,并保持了他们的兴趣。” 

这正值观鸟新闻如火如荼之际,尤其是在纽约市,一些稀有鸟类已经达到了“邪典明星”的地位。《纽约时报》刊登了条纹猫头鹰雪鸮的报道,而一只鸳鸯在2018年被《纽约杂志》报道,就像是下一个值得关注的羽毛网红。

Merlin于6月推出的声音识别功能,已经收到了观鸟界的积极回应。新的声音识别功能现在与基于机器学习的照片识别工具一起使用,该工具于2015年左右向用户提供。 

“在推出声音识别功能之前,我认为我们收到的最大反馈是‘我以为你们可以用这个应用程序通过声音识别鸟类!’或者‘鸟类界的Shazam在哪里?’,所以能够真正实现这一点对人们来说非常棒,”Weber说道。 

还有其他一些通过声音识别鸟类的选项,包括Bird Genie、Song Sleuth和Smart Bird ID。许多应用程序使用基于机器学习的算法,但由于背景噪音和鸟鸣的个体差异,结果的准确性可能有所不同。 

Merlin已经是一个成熟的鸟类指南应用程序。它为常规的目视识别提供了一个循序渐进的过程,对初学者观鸟者来说非常有用,并且还提供了更高级的工具。 

Merlin的声音识别功能的工作原理如下 

通过Merlin,观鸟者可以打开手机麦克风,让它倾听周围的声音。然后,该应用程序会列出正在鸣叫或呼叫的鸟类的建议。应用程序捕捉到的音频也会被转换成一种称为声谱图的可视化图案表示,它捕捉声音的振幅、频率和持续时间。

“一旦你有了树上真实鸟类的图像,或者以声谱图形式出现的音频信号,你就可以使用强大的计算机视觉工具来构建一个模型,以识别这些模式,”Merlin项目的首席研究员Grant Van Horn说道。

除了声音识别,使用该应用程序识别鸟类的其他方法还包括手动输入其物理特征和上传照片。 

一项宏大的公民科学壮举

人工智能系统需要数据,当然,这些数据首先需要存在。

在这种情况下,该项目付出了巨大的公民科学努力。如果没有鸟类学实验室的麦考利图书馆数据库,照片识别功能和较新的声音识别选项就不可能实现。该数据库包含近3000万张经过存档和注释的鸟类照片,以及由观鸟界上传的超过110万段声音片段。 

然后,一个团队着手将媒体转换为有用的工具。他们于2012年开始构建Merlin照片识别组件,这与计算机视觉取得进展的时间相同。“我们知道,如果我们能收集到数据,我们就能利用这些工具构建一个非常有用的功能,让人们能够拍摄一张照片,然后计算机就能告诉他们照片里有什么,”Van Horn说道。到2015年,该实验室能够让公民科学家上传照片和音频到不断增长的收藏中。自照片识别组件在该应用程序上推出以来,随着更多照片样本的增加以及南美洲、非洲、亚洲和欧洲新地区的物种覆盖范围的扩大,它一直在不断改进。“机器学习只有在你有一个很好的数据基础可以构建时才能发挥作用,”Van Horn解释道。 

进入麦考利图书馆的声音片段和照片的来源是该实验室运行的另一个名为eBird的项目,该项目于2002年启动。eBird应用程序允许世界各地的公民科学家和当地组织记录和分享鸟类目击信息,包括与研究和绘制鸟类种群的科学家分享。

“由于我们长期以来收集了这些数据,我们对如果在7月19日在纽约市,你可能会遇到哪些物种有了很好的了解,”Van Horn说道。“这种信息对我们进行声音识别和照片识别非常有帮助,因为它能立即将声音识别的450个物种问题、照片识别的8000个物种问题缩小到我们真正考虑的40个物种。”

Van Horn说,音频识别组件的进展比图像识别慢,“这仅仅是因为外出录制鸟鸣的习惯不像拍照那么受欢迎。但可以说,在过去的三年左右,北美地区的音频录制已经相当密集了。” 

大约在一年前,团队决定他们已经拥有足够的声音数据,可以为美国和加拿大的流行物种构建和推出声音识别功能。他们开始梳理所有数据并选择物种。 

然而,背景噪音问题仍然是工程团队面临的挑战。为了解决这个问题,他们转向了现有的音频数据。这些音频数据集可能是交通场景、城市环境和机器噪音——这些都不是鸟类发出的正常声音。“我们会将这些音频转换成声谱图,并将它们用作‘这不是鸟类;任何时候看到这个,都不应该报告鸟类物种’的负例,”Van Horn补充道。“这是在构建高质量的鸟类数据集和充实良好的非鸟类噪音数据集之间的平衡,我们可以将其展示给机器,教它鸟类听起来不像什么。” 

[相关:如何在任何美国城市开始观鸟]

然后是更多的工作。由于项目的成功取决于数据集的质量,这意味着Weber和Van Horn必须组织并招募观鸟界高技能的成员,帮助他们审阅数据库中的原始音频文件,并标记录音中的物种。 

“在构建我们数据集以供首次发布时,我认为我们投入了大约2000小时的标注工作,绘制出鸟类唱歌的位置,以及各种鸟类唱歌的位置,”Weber说道。“这主要是来自那些正在录入eBird数据和观察记录的相同人群的志愿工作。” 

该应用程序于2014年首次推出时,只包含美国和加拿大的最常见鸟类。2016年,首次发布了国际标签,从墨西哥、哥斯达黎加开始,并扩展到欧洲、澳大利亚、新西兰、非洲和亚洲部分地区。“我们仍然看到,大约75%的新用户和活跃用户在美国和加拿大,”Weber说道,但世界各地记录的新物种数量正在不断增加。  

随着全球用户继续向eBird数据库提交目击信息,新的目击信息会被整合到Merlin应用程序中,并帮助研究团队了解何时何地会出现哪些物种。“我们不断更新应用程序中每个物种的照片和声音,以便不断改进Merlin展示的内容,”Weber补充道。  

[相关:了解鸟类如何改变它们的歌声以适应周围环境]

Weber指出,他们收到的一些最令人惊讶的反馈来自听力障碍的用户。“他们对实时视图和可以可视化鸟鸣的声谱图感到非常兴奋,”他说。“无论是那些一直以来听力不佳的人,还是那些随着年龄增长听力下降,特别是高音调的人,很多人都对能够某种程度上恢复一些听力损失感到非常兴奋。” 

该团队仍在努力完善应用程序并整合用户的反馈。Van Horn认为,通过与区域社区和组织的合作,他们可以构建各种有用的工具,帮助人们拥有更引人入胜的户外体验,特别是与当地的鸟类互动。“这是一个人类和机器的成功故事,”Van Horn说道。“人类在这个过程中扮演着至关重要的角色。”

 

更多优惠、评测和购买指南

 
© .