这项 AI 可以利用声音揭示看不见空间的结构

这被称为神经声场模型,它还可以考虑当您穿越虚拟现实时,各种噪音会是什么样的。
a stage filled with lights and music equipment
Deposit Photos

想象一下,您正穿过一系列房间,越来越近地靠近声源,无论是扬声器播放的音乐还是人说话的声音。当您在迷宫中移动时,听到的噪音会根据您所在的位置而扭曲和波动。考虑到这种情况,来自麻省理工学院和卡内基梅隆大学的研究人员团队一直在研究一种模型,该模型可以真实地描绘出听者在特定空间中移动时周围的声音如何变化。他们上周在一个新的预印本论文中发表了他们在这方面的研究。 

我们在世界中听到的声音会因各种因素而异,例如声波反弹的空间类型、它们撞击或穿过的材料以及它们需要传播的距离。这些特征会影响声音的散射和衰减。但研究人员也可以逆向工程这个过程。他们可以获取声音样本,甚至可以利用它来推断环境是什么样的(在某些方面,这就像动物使用回声定位来“看”一样)。

“我们主要是在模拟空间声学,所以重点在于混响,”麻省理工学院研究生、该论文的作者 Yilun Du 说。“也许你在音乐厅,有很多混响;也许你在大教堂,有很多回声;而如果你在一个小房间里,则几乎没有回声。”

他们称之为神经声场 (NAF) 的模型是一个神经网络,它可以考虑声源和听者的位置,以及声音传播的空间的几何形状。 

为了训练 NAF,研究人员输入了场景的视觉信息以及从听者在不同观察点和位置会听到的声音收集的一些声谱图(一种可视化模式表示,捕捉声音的幅度、频率和持续时间)。

“我们的数据点很少;根据这些数据,我们拟合了一种模型,该模型可以准确地合成来自房间内任何位置的声音听起来会是什么样,以及来自新位置的声音听起来会是什么样,”Du 说。“一旦我们拟合了这个模型,您就可以模拟各种虚拟漫步。”

该团队使用了从虚拟模拟房间获得的音频数据。“我们在真实场景中也有一些结果,但问题是,在现实世界中收集这些数据需要花费很多时间,”Du 指出。 

利用这些数据,该模型可以学会预测如果听者移动到另一个位置,他们听到的声音会如何变化。例如,如果音乐来自房间中心的扬声器,当听者走近时,声音会变大;当听者走进另一个房间时,声音会变得更加沉闷。NAF 还可以利用这些信息来预测听者周围世界的结构。 

这类模型的一个重要应用是在虚拟现实中,这样就可以为在 VR 空间中移动的听者准确地生成声音。他看到的另一个重要用途是人工智能。 

“我们有很多视觉模型。但感知不仅仅局限于视觉,声音也非常重要。我们也可以想象这是使用声音进行感知的一种尝试,”他说。 

声音并不是研究人员正在用人工智能进行实验的唯一媒介。如今的机器学习技术可以获取 2D 图像并利用它们生成对象的 3D 模型,提供不同的视角和新的视图。这项技术在虚拟现实环境中尤其有用,因为工程师和艺术家必须在屏幕空间中构建真实感。 

此外,像这种专注于声音的模型可以增强低光照或水下条件下的现有传感器和设备。“声音还可以让你看到拐角处。根据光照条件,有很多变化。物体看起来非常不同,”Du 说。“但声音几乎总是一样的。这是一种不同的感官模式。”

目前,进一步开发他们的模型的一个主要限制是信息不足。“令人惊讶的是,获取数据非常困难,因为人们还没有深入研究过这个问题,”他说。“当你尝试在虚拟现实中合成新视图时,有海量的数据集,所有这些真实图像。有了更多的数据集,探索这些方法,尤其是在真实场景中,将非常有趣。”

在下方观看(并聆听)虚拟空间的漫步。

 

更多优惠、评测和购买指南

 
Charlotte Hu Avatar

Charlotte Hu

助理科技编辑

Charlotte 是《趣味科学》的助理科技编辑。她对了解我们与技术的关系如何变化以及我们如何在网上生活感兴趣。


© .