蛋白质是维持生物体正常运转的重要组成部分。它们有助于修复细胞、清除废物,以及在身体各处传递信息。
科学家们在解读蛋白质的结构和功能方面付出了巨大的努力。为此,Meta 的 AI 研究团队今天宣布,他们已经使用了一个模型,该模型可以根据氨基酸序列预测蛋白质的三维结构。与该领域之前的研究(例如DeepMind 的研究)不同,Meta 的 AI 基于语言学习模型,而不是形状和序列匹配算法。Meta 不仅发布了这项研究的预印本论文,还将向研究界和行业开放模型和蛋白质数据库。
首先,为了说明理解蛋白质形状的重要性,这里有一个简短的生物学知识。基因中的某些核苷酸三联序列会被细胞中的一种叫做核糖体的分子翻译成氨基酸。蛋白质是氨基酸链,它们已经自组织成独特的形状和构象。一门新兴的科学领域,称为宏基因组学,正在利用基因测序来发现、编目和注释自然界中的新蛋白质。
Meta 的 AI 模型是一种新的蛋白质折叠方法,灵感来自大型语言模型,旨在预测宏基因组数据库中数亿个蛋白质序列的结构。了解这些蛋白质形成的形状将为研究人员提供关于它们如何工作以及它们与哪些分子相互作用的线索。
[相关:Meta 认为其新 AI 工具可以提高维基百科的准确性]
Meta AI 的研究科学家 Alex Rives 说:“我们已经对宏基因组蛋白质进行了首次大规模表征。我们将数据库作为开放科学资源发布,其中包含超过 6 亿个蛋白质结构预测。“这涵盖了一些最不为人知的蛋白质。”
历史上,计算生物学家一直利用进化模式来预测蛋白质的结构。蛋白质在折叠之前是线性的氨基酸链。当蛋白质折叠成复杂的结构时,在直线链中可能相距很远的某些序列可能会突然变得非常接近。
Rives 说:“你可以把这想象成拼图的两块,它们必须契合在一起。进化无法独立选择这两个位置,因为如果错误的一块放在这里,结构就会崩溃。“这意味着,如果你观察蛋白质序列的模式,它们就包含有关折叠结构的信息,因为序列中不同的位置会相互协变。这将反映出蛋白质的基本生物学特性。”
与此同时,DeepMind 于 2018 年首次推出的创新方法主要依赖于一种称为多序列比对的方法。它基本上是在大量的蛋白质序列进化数据库中进行搜索,以查找与它正在进行预测的蛋白质相关的蛋白质。
Rives 说:“我们的方法不同之处在于,我们直接从氨基酸序列进行预测,而不是从这组相关蛋白质中进行预测并查看模式。“语言模型以不同的方式学习了这些模式。这意味着我们可以大大简化结构预测架构,因为我们不需要处理这组序列,也不需要搜索相关序列。”
Rives 声称,这些因素使得他们的模型比该领域的其他技术速度更快。
[相关:Meta 希望通过研究人脑来改进其 AI]
他们是如何训练这个模型来执行这项任务的?这需要两个步骤。首先,他们必须在一个包含大量不同结构、来自不同蛋白质家族且跨越整个进化时间线的蛋白质上对语言模型进行预训练。他们使用了掩码语言模型的一个版本,他们遮盖了氨基酸序列的某些部分,并要求算法填充这些空白。Rives 解释说:“语言训练是无监督学习,它只在序列上进行训练。“这样做会让模型学习到数百万个蛋白质序列中的模式。”
然后,他们冻结了语言模型,并在其之上训练了一个折叠模块。在训练的第二阶段,他们使用监督学习。监督学习数据集由全球研究人员提交的蛋白质数据库中的一组结构组成。然后,使用 AlphaFold(DeepMind 的技术)进行的预测对其进行了增强。Rives 说:“这个折叠模块接收语言模型的输入,基本上输出蛋白质的三维原子坐标(来自氨基酸序列)。“这会产生这些表示,然后通过折叠头将其投影到结构中。”
Rives 设想,该模型可用于研究应用,例如在生化层面理解蛋白质活性位点的功能,这些信息对于药物开发和发现可能非常重要。他还认为,未来甚至可以使用 AI 来设计新的蛋白质。