

在 电子音乐 成为一种独特的现代音乐流派的统称之前,这个词指的是一种 音乐制作技术,该技术涉及将真实乐器发出的声音传输成可在磁带上录制、或通过放大器和扬声器播放的波形。在 20 世纪初到中期,特殊的 电子乐器 和音乐合成器——连接到计算机、能够电子生成和修改各种乐器声音的机器——开始流行起来。
但存在一个问题:几乎每家公司都使用自己的计算机编程语言来控制其数字乐器,这使得音乐家难以整合不同制造商生产的不同乐器。因此,在 1983 年,业界联合起来创建了一个通信协议,称为 Musical Instrument Digital Interface(MIDI),以标准化外部音频源如何向计算机传输信息,反之亦然。
MIDI 的工作原理就像一个 指令,它告诉计算机演奏了什么乐器,该乐器演奏了哪些音符,演奏的音量有多大、持续时间多长,以及是否使用了任何效果。这些指令涵盖了单个乐器的单个音符,并允许准确地回放声音。当歌曲以 MIDI 文件 而非 常规音频文件(如 mp3 或 CD)的形式存储时,音乐家可以轻松编辑音轨的节奏、调式和编配。他们还可以删除单个音符、整个乐器部分,更改乐器类型,或者复制主唱轨道并将其变成和声。由于 MIDI 记录了在何时由何种乐器演奏了哪些音符,因此它本质上是一种数字乐谱,并且像 Notation Player 这样的软件可以毫不费力地将 MIDI 文件转录为乐谱。
[相关:接口音乐:电子乐器控制入门]
尽管 MIDI 因多种原因很方便,但它通常要求音乐家拥有某种接口,例如 MIDI 控制器键盘,或者了解如何手动编写音符。但由 Spotify 和 Soundtrap 的工程师于今年夏天公开的一款名为 Basic Pitch 的工具,有望简化这一过程,并为缺乏专业设备或编码经验的音乐家打开这一工具的便利之门。
“这有点像你让你的语音助手识别你说的词语,并理解这些词语背后的意思,”参与该项目的 Spotify 科学家 Rachel Bittner 在 9 月份的一篇博文中 说道。“这项工作结合了我们的机器学习研究和实践以及音频领域的专业知识——了解音乐工作的基础知识,如音高、音色、节奏、不同乐器的频率等等。”
Bittner 设想该工具可以作为一种“起点”转录,艺术家可以即时使用,从而省去了手动写下音符和旋律的麻烦。
这款 开源 工具使用机器学习将任何音频转换为 MIDI 格式。在这里 观看其工作演示。
此前在该领域的研究在一定程度上简化了构建该模型的过程。有一些称为 Disklaviers 的设备,它们可以录制实时的钢琴演奏并将其存储为 MIDI 文件。而且,研究人员可以使用大量的音频录音和配对的 MIDI 文件来创建算法。“存在许多执行 Basic Pitch 部分功能的工具,”Bittner 在播客 NerdOut@Spotify 中说。“我认为 Basic Pitch 之所以特别,是因为它在一个工具中集成了许多功能,而不是需要为不同类型的音频使用不同的工具。”
此外,它相对于其他音符检测系统的优势在于,它可以同时跟踪一个以上乐器的多个音符。因此,它可以同时转录人声、吉他和歌声(关于这项技术的 论文,团队于今年发表)。Basic Pitch 还支持颤音(音符的抖动)、滑音(音符之间的滑动)、弯音(音高波动)等音效,这得益于其音高弯曲检测机制。
要理解模型中的组件,需要了解一些关于音乐的基本知识:感知到的音高是 基频,也称为振动物体(如小提琴弦或声带)的最低频率。音乐可以表示为一系列正弦波,每个正弦波都有其特定的频率。在物理学中,大多数我们听到的有音高的声音在其上方有 其他谐波间隔的音。Bittner 指出,音高跟踪算法的难点在于将所有额外的音高“压缩”成一个主音。该团队使用了一种称为 谐波恒定 Q 变换 的方法,通过谐波、频率和时间来模拟有音高的声音结构。
Spotify 团队希望使模型快速且低功耗,因此必须降低计算成本,并让更少的输入产生更大的价值。这意味着机器学习模型本身必须具有简单的参数和较少的层。Basic Pitch 基于一个 卷积神经网络 (CNN),其峰值内存不到 20 MB,参数少于 17,000 个。有趣的是,CNN 是最早被认为擅长图像识别的模型之一。对于这个产品,Spotify 在各种开放数据集上训练和测试了其 CNN,这些数据集涵盖了人声、原声吉他、钢琴、合成器、管弦乐,以及多种音乐流派。“为了实现一个小型模型,Basic Pitch 构建了一个谐波叠加层和三种类型的输出:起音、音符和音高弯曲,”Spotify 工程师在 博客文章 中写道。
[相关:观鸟爱好者看过来:康奈尔大学的 Merlin 应用现已成为观鸟识别的一站式服务]
那么,使用机器学习来完成这类任务有什么好处呢?Bittner 在播客中解释说,他们可以利用在单个房间、使用单个麦克风录制的某种乐器的音频剪辑来构建一个简单的音高表示。但是,机器学习使他们即使在处理不同的乐器、麦克风和房间时,也能辨别出相似的潜在模式。
与使用 MusicNET 数据训练的 2020 年多乐器自动音乐转录模型相比,Basic Pitch 在检测音符方面的 准确性更高。然而,与专门为检测吉他和钢琴等特定乐器音符而训练的模型相比,Basic Pitch 的表现稍逊一筹。Spotify 工程师承认该工具并不完美,他们热切期待社区的反馈,并希望看到音乐家们如何使用它。
想知道它是如何工作的吗?您可以在这里 尝试使用——您可以在 Web 门户上直接录制声音或上传音频文件。