机器学习正在帮助我们发现自闭症的遗传学

普林斯顿研究人员正以更聪明的方式工作,而非更努力地工作

自闭症谱系障碍的遗传病因研究起来非常困难。由于自闭症谱系障碍的遗传标记非常罕见,因此很难在患者之间进行匹配——最常见的遗传指标之一仅在不到 1% 的自闭症患者中发现。即使发现了遗传异常,也必须与家族成员的基因组进行比对,以确保其并非归因于一种更常见的、不会引起疾病的遗传突变。

普林斯顿大学和西蒙斯基金会的研究人员颠覆了传统的研究方法,他们训练机器学习算法来寻找可能导致自闭症的遗传关系。该算法搜遍了人类基因组相互作用的数字网络,寻找与先前已知的自闭症标记相似的关系和联系。这项研究揭示了这种疾病是如何隐藏在我们基因组中的,并突出了 2,500 个有待进一步研究的基因。

“我们不仅仅是说[某个基因]有 90% 的几率与自闭症相关,因为我们拥有这个网络,我们实际上可以解释‘它是如何与自闭症相关联的’,”发表在《自然·神经科学》上的论文的合著者 Olga Troyanskaya 说。

这些结果不能立即用于识别患者的疾病。相反,它们可以使寻找更多导致自闭症的基因变得更快、更便宜。现在科学家们对在哪里寻找有了更好的了解,他们可以有选择地对与该疾病相关的基因组部分进行测序。那些能够解读看似晦涩难懂的基因组数据的人,可以在线访问该团队的研究成果。

她解释说,这些相互作用就像电路一样——每一个部件都需要正常工作才能使整个过程运转。

Troyanskaya 设想了一个场景:两个基因需要结合才能激活第三个基因,而这个第三个基因对大脑发育很重要。

“如果出了问题,比如你没有其中一个基因可以结合在一起,那么它们就无法结合第三个基因,这样你就破坏了这个小电路,”Troyanskaya 说。

算法的工作原理就是这样:它分析这些小电路是如何被破坏的,受影响基因的性质,以及它们如何与周围的基因相互作用,然后在整个基因组中寻找类似的潜在场景。然而,其前提是存在某种模式。

但我们对基因组标记的了解是有限的——我们知道 65 个,但估计可能还有 400-1000 个标记尚未被发现。而在已知的 65 个中,只有 19 个被普林斯顿团队认为是“黄金标准”,即具有极高概率导致自闭症。

机器学习算法虽然能够比人类更快地梳理海量数据,但缺乏仅通过少数几个例子就能学习的能力。对于如此复杂的信息,19 个例子对于算法来说是一个极小的学习样本。因此,Troyanskaya 和她的团队巧妙地利用了反例来最大化这些数据,向算法提供遗传疾病的反例。通过告诉算法忽略其他遗传疾病,它可以专注于寻找与自闭症特异性的关系。

虽然算法完成了所有的繁重工作,但 Troyanskaya 表示,这项研究之所以成为可能,是因为该团队在 2015 年发表的基因相互作用网络。该网络包含了关于 25,825 个与组织(如大脑)相关的基因如何协同工作的预测。它不仅仅是一个基因列表——它包含了数千个矩阵,代表了每个基因在大脑中的行为。

展望未来,该团队正在研究如何将这种技术应用于绘制个体患者的基因组图谱。

 

更多优惠、评测和购买指南

 
© .