微软的机器学习如何打破全球语言障碍

打造通用翻译器
Skype Translator
Microsoft

本周早些时候,大约有 50,000 名 Skype 用户醒来后发现了一种新的沟通方式。这种方式基于网络电话和视频通话平台,其功能仿佛直接摘自《星际迷航》。这个新功能名为 Skype Translator(Skype 翻译器),能够实时翻译不同语言之间的语音通话,即时将英语转换为西班牙语,再将西班牙语转换回英语。Skype 计划逐步增加对 40 多种语言的支持,承诺为桌面和移动设备提供不止是通用翻译器。

Skype Translator 是微软研究院(Microsoft acquired Skype in 2011)十年多专注研发的成果,它实现了包括其他多家硅谷巨头以及美国国防部在内的许多机构尚未能做到的事情。为了实现这一目标,微软研究院(MSR)必须解决一些重大的机器学习难题,并将深度神经网络等技术推向新的领域。

他们的宏伟目标:让地球上的每个人都能与其他任何人交流

他们的宏伟目标:让地球上的任何人都能与其他任何人交流,消除语言障碍。“Skype 一直致力于打破障碍,”Skype 公司副总裁 Gurdeep Pall 说。“我们认为,有了 Skype Translator,我们将能够填补一个长期存在的空白,这个空白实际上自人类交流伊始就一直存在。”

微软在机器翻译领域拥有深厚的机构关系,其历史可以追溯到微软研究院(MSR)的早期。MSR 战略总监 Vikram Dendi 表示,机器学习小组是 MSR 最古老的部门之一。比尔·盖茨资助了这个小组,并将其列为优先事项。

Dendi 表示,当时统治微软思想的“让每台电脑都进入每个家庭”的口号给 MSR 带来了挑战。与以往任何时候相比,更多的地方产生了更多的数据——而且使用了更多语言。微软研究人员的任务是创建翻译引擎来应对这一问题。Dendi 说,直到今天,互联网上最大块未被充分利用的机器翻译文本宝库之一就是微软的帮助论坛,这些论坛使用其内部开发的翻译引擎被翻译成数十种语言。

但那是文本。翻译口语——尤其是在实时进行——需要一套完全不同的工具。口语不仅仅是语言交流的不同媒介;我们在说话和写作时的遣词造句方式是不同的。此外,还有语调、语气、肢体语言、俚语、习语、发音错误、地区方言和口语表达等因素。文本提供数据;而语音及其所有细微差别则带来了诸多问题。

在你停止说话后半秒,就会播放音频翻译

为了创造一个可行的语音到语音的翻译技术,MSR 的研究人员知道,他们不仅要教会系统根据一套标准规则将一种语言的一个词翻译成另一种语言的同一个词,还要理解词语和句子的含义。他们必须教会机器,而机器必须学会。

MSR 公司副总裁 Peter Lee 表示,训练计算机学习语言的方式不止一种,但人类语言让计算机出错的方式也多种多样。MSR 采取了多方面的方法。“这是对语言的理解——语法、结构和含义——以及统计匹配过程的结合,”他说。“如果我说‘我喜欢冰淇淋’,你知道它的意思大概就是它的字面意思。但如果我说‘哦,那个失误是压垮骆驼的最后一根稻草’,如果你把它逐字翻译成另一种语言,可能就没什么意义了。”

这触及了机器翻译问题的核心:理解和翻译含义,而不仅仅是词语。MSR 的研究人员通过利用统计概率在不同语言之间映射词语和整个短语来解决这个问题。他们开始使用任何已翻译的文本来构建知识库——教科书、欧盟议会演讲等。这使得翻译引擎能够设定一个基准,并开始找出哪些短语——即使是那些不能按字面意思翻译的短语——是重叠的。

例如,要将英语短语“the straw that broke the camel’s back”(压垮骆驼的最后一根稻草)翻译成德语,系统会寻找概率匹配,根据它认为最可能正确的选项,从多个候选短语中选择最佳解决方案。随着时间的推移,系统会建立对某些结果的信心,从而减少错误。通过足够的训练,它会发现,对于德语使用者来说,“the drop that tipped the bucket”(让桶满溢出的最后一滴)这样的等效短语可能更熟悉。

这种概率性的统计匹配让系统能够随着时间的推移变得更智能,但这并没有真正代表机器学习或翻译方面的突破(尽管 MSR 研究人员会指出,他们已经在引擎中构建了一些非常复杂且独特的语法解析算法)。而且,无论如何,翻译不再是方程中最难的部分。实时语音到语音翻译的真正突破出现在 2009 年左右,当时 MSR 的一个团队决定重新研究深度神经网络,以期增强语音识别和合成——即将口语转换为文本,反之亦然。

比经典计算机更像人脑设计

深度神经网络(DNN)——一种受生物学启发的计算范式,其设计比经典计算机更像人脑——能够通过一种强大的过程,即深度学习,让计算机通过观察来学习。但在上个十年初期,构建基于 DNN 的系统被证明是困难的。许多研究人员转向了那些更有近期希望的解决方案。

大约十年间,机器翻译的性能停滞不前。“我们有整整 10 年的时间,我们一直在努力工作,每天都有新的发现,但我们系统的质量并没有提高,”Lee 说。“然后我们终于达到了一个临界点。”MSR 从未完全放弃 DNN 研究,当一组机器翻译研究人员开始积极追求它们作为创建更快、更有效的语音识别引擎的方法时,他们取得了长期寻求的突破。DNN 技术已经取得了长足的进步,MSR 和其他地方的科学家此时已经能够通过 DNN 开发出复杂的机器学习模型,这些模型比传统计算机更像人脑中的神经元。“回到 DNN 是至关重要的,”Dendi 说。“如果说有一个突破,那就是这个。”

新的、能够边学习边进行的基于 DNN 的模型被证明能够就其训练的数据集(包括语言等)构建更大、更复杂的知识库。语音识别的准确率提高了 25%。此外,DNN 的速度足够快,可以实现实时翻译,正如 50,000 人在本周发现的那样。

并不是用户会注意到。所有这些技术奇迹都在后台发生。当 Skype Translator 通话的一方说话时,他的话会触及所有这些部分,首先传输到云端,然后依次通过语音识别系统、一个清理不必要的“嗯”和“啊”等声音的程序、一个翻译引擎,以及一个将翻译转换回可听语音的语音合成器。在那个人停止说话后半秒,音频翻译就已经在播放,同时翻译的文本记录会显示在 Skype 应用中。

Skype Translator 并非完美。它仍然会被它不理解的习语、不常见的短语,或者大多数人在说母语时对发音、句子结构或用词不那么讲究的事实所困扰。Lee 和他在 Skype 的同事们并不因此而烦恼。他们更感兴趣的是看到这个系统如何随着数万用户的使用而发展,这些用户不仅在测试它的局限性,还在教会它 MSR 尚未考虑到的语言和人际互动的新方面。

“我们对它感觉很好,”Lee 说。“但是当它真正投入使用后,谁知道会发生什么呢?”

 

更多优惠、评测和购买指南

 
© .