为什么你的音乐文件听起来像垃圾

您在便携式音乐播放器上听到的那些音乐文件——无论是 MP3、AAC 还是 WMA——在精确还原原始录音的音质方面，效果相当糟糕。但直到现在，人们才知道它们究竟有多糟糕。

音频数据压缩，从本质上讲，非常简单。软件通过剔除冗余并在离散的时间段内近似音频信号来压缩数字音频数据。采样时间段越大，近似值就越不精确。这就是为什么采样率高的 MP3（采样时间短）比采样率低的 MP3 音质更好。

为了测试人耳是否足够精确以分辨音频压缩算法的某些理论限制，纽约洛克菲勒大学的物理学家 Jacob N. Oppenheim 和 Marcelo O. Magnasco 向测试对象播放了音调。研究人员希望了解受试者是否能区分音调的时间和频率差异。该研究的基本前提是，几乎所有的音频压缩算法，例如 MP3 编解码器，都是基于线性预测模型来推断信号的，该模型是在科学家们了解人类听觉系统的精细细节之前很久就开发的。该线性模型认为，声音的时间和频率存在特定的截止限制：也就是说，在某个点上，两个音调在频率或时间上如此接近，以至于人耳应该无法分辨差异。此外，时间和频率是相关的，在一个轴（例如时间）上的精度越高，在另一个轴上的精度就相应降低。如果人类听觉遵循线性规则，那么当我们以足够高的采样率（我们不谈论那些糟糕的 192kbps rip）时，我们不应该在高质量文件和原始录音之间听到音质的下降。

实验分为五个任务，让受试者听一个参考音调以及一个与参考音调不同的音调。任务测试了以下内容：

1) 仅频率差异
2) 仅时间差异
3) 带有干扰音的频率差异
4) 带有干扰音的时间差异
5) 同时确定频率和时间差异

我猜很多音响爱好者不会感到惊讶，但人类听觉的响应曲线绝对不是线性的。事实上，在任务 5——被认为是任务中最复杂的——许多受试者能够听到音调之间高达 13 倍于线性模型预测的精细度差异。那些在区分音调之间的时间和频率差异方面最有技巧的人是音乐家。其中一位电子音乐家能够分辨出相隔约三毫秒的音调——这是非常惊人的，因为一个音调的单个周期仅持续 2.27 毫秒。这位受试者在频率分辨能力方面表现不如其他人。另一位专业音乐家在频率分辨能力方面非常出色，在音调的时间分辨能力方面也很好。

更有趣的是，研究人员发现作曲家和指挥家在任务 5 上总体表现最佳，因为他们需要能够分辨整个交响乐团中许多同时发声的音符的频率和时间。最后，研究人员发现，大多数受试者在时间敏锐度——分辨音符之间的时间差异——方面比频率敏锐度发展得更好。

那么，这一切意味着什么呢？作者明确指出，音频工程师应该重新思考他们处理音频压缩的方法——甚至可能完全抛弃他们用来实现压缩的线性模型。他们还建议，重新审视音频处理算法将能够改进语音识别软件，并可能在声纳研究或射电天文学中得到应用。这很棒，但不能说我期待在那些编解码器可用后重新 rip 我的整个音乐收藏。