语言是复杂的;需要敏锐的听觉才能分辨出不仅仅是词语本身,还有习语、语气、地区性潮流以及不断变化的侮辱性语言,这些才能让一个人真正流利。这也是为什么即使是最好的应用程序和谷歌翻译也无法胜任的原因之一。同样,需要训练有素的语言学家才能知道这些源自同一个词根的词语是如何演变成无数种形式,但都表达同一个意思的。一台精明的计算机能否像一位聪明的语言学家那样解决这个问题?答案,在这种情况下,可能是肯定的。
一种新的机器学习算法可以使用语音规则来分析语言变化中最可能的语音变化。所有词语都会随着时间和地域而改变,但某些元音和发音比其他元音和发音变化得更明显——你说“tomato”,我说“tomahtoe”,加拿大人说“aboot”,等等。温哥华英属哥伦比亚大学的Alexandre Bouchard-Côté及其同事开发了一个系统,该系统可以推测出过去词语的发音方式,以及哪些发音最有可能发生变化。然后,他们将结果与人类专家的分析进行比较,发现计算机的建议中有85%的词语与正确的词语相差在一个字符以内。
他们研究了637种不同的南岛语系语言,这些语言分布在从菲律宾到夏威夷的太平洋地区。例如,他们会从“星星”一词开始。在斐济语中,这个词是kalokalo。在帕泽语(一种台湾原住民语言)中,它是mintol。说婆罗洲语言 Melanau 的人称它为biten,而说菲律宾方言 Inabaknon 的人称它为bitu’on。所有这些语言都演变而来的词根是bituquen。计算机正确地推断出了这一点。
难点在于,在计算机进行分析之前,需要进行大量的前期准备工作。语言学家必须输入给定语言的词汇列表及其含义,并生成一种语言的“生命之树”——一个展示每个词语与其他词语之间关系的系统发育图。(它在形式和功能上都类似于植物学家和生物学家用来展示生命之间关系的系统发育图。)但是一旦开始工作,该算法就非常高效。它可以识别语言中具有相同词根的同源词,然后找出可能的词根。
研究人员承认仍有更高级的工作要做,但他们希望这项技术能像基因信息改变生物学一样,成为历史语言学家的福音。与形态学变化——观察一个事物并了解其如何变化或与其他事物进行比较——相比,研究基因要简单得多。该算法可以以类似的方式工作,通过计算研究词语和语言的词根,而不是依赖于经过特殊训练的耳朵。该论文于本周发表在《美国国家科学院院刊》上。