录制一本有声读物并非易事,即使对于经验丰富的配音演员来说也是如此。但有声读物需求正在增长,Spotify 等主要流媒体平台正在为其提供专门的空间以促进增长。为了将创新与热潮结合起来,麻省理工学院和微软的研究人员正在利用人工智能从在线文本中创建有声读物。在一项雄心勃勃的新项目中,他们正在与 Project Gutenberg(世界上最古老、可能也是最大的开放许可电子书在线存储库)合作,制作 5,000 本由人工智能朗读的有声读物。该系列包括《傲慢与偏见》、《包法利夫人》、《野性的呼唤》和《爱丽丝梦游仙境》等经典文学作品。该三人组于 9 月发布了一篇 arXiv 预印本,介绍了他们的努力。
“我们想做的是创作大量的免费有声读物,并将它们回馈给社区,”麻省理工学院计算机科学与人工智能实验室的博士生、该项目的主要研究员 Mark Hamilton 告诉 PopSci。“最近,神经文本转语音技术取得了很大进展,这些算法可以阅读文本,并且听起来非常像人类。”
使这一切成为可能的神奇成分是一种神经文本转语音算法,该算法通过数百万个人类语音示例进行训练,然后负责模仿。它可以生成具有不同口音、不同语言的不同声音,并且只需五秒钟的音频即可创建自定义声音。“它们可以阅读您提供的任何文本,并且可以读得非常快,”Hamilton 说。“你可以给它八小时的文本,它几分钟就能完成。”
重要的是,该算法可以捕捉细微差别,如音调和人类在阅读单词时添加的修饰,例如电话号码或网站的读法、哪些内容会被组合在一起以及停顿在哪里。该算法基于该论文的几位合著者在微软先前的研究。
与大型语言模型一样,该算法在很大程度上依赖于机器学习和神经网络。“它们是相同的核心部分,但输入和输出不同,”Hamilton 解释道。大型语言模型接收文本并填充空白。它们使用这种基本功能来构建聊天应用程序。另一方面,神经文本转语音算法接收文本,通过相同的算法进行处理,但现在它们输出的不是文本,而是声音,Hamilton 说。
[相关:Internet Archive 在与大型图书出版商的联邦诉讼中败诉]
“它们试图生成忠实于您输入的文本的声音。这也给了它们一些灵活性,”他补充道。“它们可以发出它们认为对于很好地完成任务所必需的声音。它们可以改变、组合或修改发音,使其听起来更像人类。”
然后可以使用一个名为损失函数的工具来评估模型是否做得好或不好。以这种方式实施人工智能可以加快 Librivox 等项目的进程,Librivox 目前依靠人类志愿者来制作公共领域作品的有声读物。
这项工作远未完成。下一步是提高质量。由于 Project Gutenberg 的电子书是由人类志愿者创建的,因此每个制作电子书的人都会以略微不同的方式进行。他们可能会在意想不到的地方包含随机文本,并且电子书制作者放置页码、目录或插图的位置可能会因书而异。
“所有这些不同的东西都会导致有声读物出现奇怪的瑕疵,以及一些您根本不想听到的内容,”Hamilton 说。“北极星是开发越来越灵活的解决方案,它们可以使用良好的人类直觉来弄清楚在这些书中应该读什么,不应该读什么。”一旦他们掌握了这一点,他们的希望是将其与最新的 AI 语言技术进展相结合,将有声读物系列扩展到 Project Gutenberg 的所有 60,000 本书,甚至可能将它们翻译过来。
目前,所有由人工智能配音的有声读物都可以在 Spotify、Google Podcasts、Apple Podcasts 和 Internet Archive 等平台上免费流式传输。
这种算法有多种应用。它可以朗读戏剧,并为每个角色分配不同的声音。它可以以您的声音模拟整个有声读物,这可能是一个不错的礼物。然而,尽管有很多相当无害的使用这种技术的方法,专家们此前曾对人工生成音频的缺点及其滥用的可能性表示担忧。
在下方收听《野性的呼唤》。