研究人员开发了一种新方法,可以近乎实时地截获瘫痪患者大脑的神经信号,并将其转化为可听见的语音。这项脑机接口(BCI)系统,类似于一个高级版的谷歌翻译,但它不是将一种语言翻译成另一种语言,而是破译神经数据并将其转化为口语化的句子。
机器学习的最新进展使研究人员能够使用个体自己语音的录音来训练人工智能语音合成器,从而使生成的语音更加自然和个性化。患有瘫痪症的患者已经使用脑机接口通过控制电脑鼠标和控制假肢来改善身体运动控制功能。这个特定的系统针对的是那些同样失去说话能力的特定患者。在测试中,该瘫痪患者能够默读完整的文本句子,然后这些句子被人工智能语音以不到80毫秒的延迟转化为语音。
这项研究的结果已于本周发表在《自然·神经科学》杂志上,由加州大学伯克利分校和加州大学旧金山分校的研究人员组成的团队完成。
“我们的流式传输方法为神经假体带来了与Alexa和Siri设备相同的快速语音解码能力,”加州大学伯克利分校教授、该研究的联合首席研究员Gopala Anumanchipalli在一份声明中说。“使用一种类似的算法,我们发现我们可以解码神经数据,并首次实现近乎同步的语音流。其结果是更自然的、流畅的语音合成。”
研究人员如何分析脑信号
研究人员与一位名叫安(Ann)的瘫痪女性合作,她在一次不明原因的事故后失去了说话能力。为了收集神经数据,研究团队在她大脑负责言语运动控制的区域上方植入了一个253通道的高密度皮层脑电图(ECoG)阵列。当她默默地咀嚼或模仿屏幕上显示的短语时,他们记录了她的大脑活动。安最终看到了数百个句子,所有这些句子都基于1024个单词的有限词汇量。这个初步的数据收集阶段使得研究人员能够开始解码她的想法。

“我们基本上是在思想转化为发音的信号截获点,以及在这个运动控制的中间阶段,”该研究的合著者Cheol Jun Cho在一份声明中说。“所以我们解码的是在思想发生之后,在我们决定说什么之后,在我们决定使用哪些词以及如何移动我们的发声器官之后。”
解码后的神经数据随后通过一个在安受伤前的真实语音录音进行训练的文本转语音人工智能模型进行处理。虽然长期以来一直存在帮助残疾人沟通的各种工具,但它们通常太慢,无法进行自然、来回的对话。已故的理论物理学家史蒂芬·霍金(Stephen Hawking),例如,使用一台电脑和语音合成器来发声,但该系统的有限界面使他每分钟只能说10到15个词。更先进的脑机接口(BCI)模型已经显著提高了沟通速度,但它们仍然存在输入延迟问题。例如,由同一研究团队开发的这个人工智能模型的一个早期版本,在解码神经数据和产生语音之间平均有八秒的延迟。
这项最新突破将输入延迟降低到不到一秒——研究人员认为这是近年来科技行业机器学习快速发展的成果。与以前的模型在等待安完成一个完整的想法后再进行翻译不同,这个系统在同时进行语音输出的同时“持续解码”语音。对安来说,这意味着她现在可以在想到一句话的不到一秒内,听到自己用自己的声音说出这句话。
临床试验的视频演示显示,安在面前的屏幕上看到了“你爱我”这句话。片刻之后,这个基于她自己声音训练的人工智能模型将这句话说出了声。几秒钟后,她成功地重复了“那么你做到了吗”和“你从哪里得到的?”据报道,安很欣赏合成的语音听起来像她自己的声音。
“在近乎实时的听到自己的声音,增强了她的具身感,”Anumanchipalli说。

脑机接口正在走出实验室
随着脑机接口日益受到公众关注,这项技术取得了进展。埃隆·马斯克(Elon Musk)于2016年创立的Neuralink已经成功地在其BCI设备植入了三名人类患者。第一位是患有四肢瘫痪的30岁男性Noland Arbaugh,他说这个设备让他只用意念就能控制电脑鼠标和玩电子游戏。从那时起,Neuralink升级了系统,增加了更多的电极,该公司表示这将提供更高的带宽和更长的电池寿命。Neuralink最近获得了美国食品药品监督管理局(FDA)的特别认定,用于探索一项旨在恢复视力的类似设备。与此同时,另一家领先的BCI公司Synchron最近展示了一名患有肌萎缩侧索硬化症(ALS)的患者能够仅通过神经输入操作Apple Vision Pro混合现实头显。
“使用这种增强现实非常有影响力,我无法想象这对处于我这种情况的人或者那些失去能力参与日常生活的人来说会是怎样,”一位名叫Mark的患有ALS的Synchron患者在一份声明中说。“它能把你带到你从未想过能再次看到或体验的地方。”
尽管该领域主要由美国初创公司主导,但其他国家也在迎头赶上。就在本周,一家名为NeuCyber NeuroTech的中国BCI公司宣布,在过去一个月里,它已向三名患者植入了自己半侵入式BCI芯片。据《路透社》报道,该公司计划在今年年底前向另外10名患者植入其“脑诺一号”(Beinao No.1)设备。
尽管如此,BCI仍然需要一段时间才能真正让那些失去说话能力的人在日常生活中恢复对话能力。加州的研究人员表示,他们的下一步是改进他们的截获方法和人工智能模型,以更好地反映语调和音高的变化,这两种元素对于传达情感至关重要。他们还在努力进一步降低已经很低的延迟。
“这是一个持续进行的工作,我们正试图了解我们能从大脑活动中解码这些副语言特征的程度,”加州大学伯克利分校的博士生、该论文的合著者Kaylo Littlejohn说。