

当科学家想了解个体人类基因组如何变化时,他们会参考一个单一的、核心的遗传序列:参考基因组。该基因组充当一种标准化测量,一种标尺,用于衡量所有其他人类变异。
但令人惊讶的是:该参考基因组约 70% 来自纽约州布法罗的一位男士,他的 DNA 在 1990 年至 2003 年的人类基因组计划中被测序,这是首次尝试记录一个人的完整基因组。这引发了显而易见的问题:参考基因组的变异是actually异常的吗?参考基因组背后的男人,被称为 RP11,很可能具有混合的非洲和欧洲血统,但一个基因组能提供关于我们 70 亿人口之间变异多少信息呢?
遗传学家们一直在尝试各种方法来解决这个问题。有时,遗传医学从业者会使用特定人群的参考基因组,这些基因组可能更能代表具有撒哈拉以南非洲或东亚血统的人。其他人则提出了开发一个“共识参考”,这将是一个弗兰肯斯坦风格的组装,将最常见的遗传变异缝合在一起。甚至可能有一个基于人类最近共同祖先的参考基因组。
但所有这些方法都有一个核心限制:参考基因组依赖于人类有一个基础遗传蓝图的假设,而遗传多样性必须被理解为与该基础的变异。
本周,《科学》杂志上的研究公布了一种研究人类“泛基因组”的新工具。泛基因组允许遗传学家一次性绘制出无限数量基因组的差异,研究人员表示,这可以捕捉复杂的变异,并更好地为非欧洲人量身定制遗传医学。
“更好的方法是,让我们与我们认为人类群体特征的整个多样化采样集合进行比较,”加州大学圣克鲁斯分校的计算生物学家、该研究的资深作者 Benedict Paten 说。
Paten 说,我们不再关注一个单一的基因组,“而是绘制一个可能性网络”。想象一下,两个人有略微不同的序列:AGTCA 和 ATTGA。从泛基因组的角度来看,变异被表示为树上的分支系列:A 导致 T 或 G,然后回到 T,然后导致 C 或 G,然后导致 A。当两个基因组相同时,它们遵循相同的路径。当基因组不同时,路径就会分叉。许多基因组相似的人就像一束线,在可能的序列网络中遵循相同的路径。
[相关:我们才刚刚开始了解我们的基因和 COVID-19 如何混合]
Paten 说,这使得更容易在上下文中看到变异,而不是将其视为偏离常态。“传统上,当我们有一个参考时,我们会谈论编辑。所以我们说,在一百万号位置等等,有一个 A 到 G 的翻转。”在泛基因组中,“它们不再被描述为编辑,它们就是序列。它们只是那个网络中的一个点。”


最直接的是,这将有助于研究人员理解我们基因中的深层模式。最简单的变化——单个字母的交换,或短插入和删除——使用参考基因组很容易识别。但存在更复杂的模式,科学家称之为结构变异。整段 DNA 可能会被反转或重复,或者被剪切并粘贴到其他地方。即使是最好的参考基因组,在理解结构变异的全部补充方面也是一个糟糕的工具。
由于基因组模式因血统而异,参考基因组在解释来自托斯卡纳人到约鲁巴人等代表性不足的群体中的变异方面尤其糟糕——它可能根本没有这些群体中常见基因组特征的类似物。(重要的是要记住,血统通常不映射到种族的文化定义,并且群体之间的变异与压倒性的共同点相比是表面或微小的。)
“当你查看结构变异时,”研究遗传医学的华盛顿大学生物伦理学家 Stephanie Fullerton 说,科学家们会问这个变异是否“可能破坏了非常重要的东西?或者这只是在人类基因组中飘荡的、实际上是中性的东西?”
由于绝大多数基因组研究都针对欧洲血统的人,研究人员通常不了解特定人群的变异对非欧洲人的健康意味着什么。
南非开普敦大学的人类遗传学家 Ambroise Wonkam 今年早些时候在《自然》杂志上撰文说,在非洲血统的人群中,有偏见的研究意味着“使用在欧洲人身上效果良好的工具,患心肌病[一种心脏病]或精神分裂症的可能性可能不可靠甚至具有误导性”。他指出,来自撒哈拉以南非洲的个体仅占人类基因组序列的不到 2%。
在新论文中,研究人员将该工具应用于来自世界各地的各种基因组数据库。他们能够识别出一个结构变异,即称为 RAMACL 的基因缺失,该变异出现在一半的非洲血统人口、4% 的混血美国人以及其他群体中仅 1% 的人身上。这表明该变异是人类多样性的正常组成部分,否则它可能会被标记为异常,甚至有害。
Paten 说:“这是一个反复出现的问题,人们研究了一个亚群体,发现了一个看起来很有趣的变异,可能与某事有关,但他们没有掌握该变异在其他人群中的普遍性背景。”
Fullerton 同意。“但这是否能帮助我们帮助来自代表性不足群体的个体患者呢?”她问道。“这是一个更宏大的问题。”
一方面,它可以让患者清楚地了解其基因组的某个特征是否值得关注,并为医生提供了解基因与疾病之间联系的工具。“如果你曾经有过任何健康问题,医生告诉你,我们不知道这意味着什么,这非常令人沮丧,对吧?”她说。随着遗传咨询(指导乳腺癌风险的管理或解释复杂的诊断)变得越来越普遍,那些未被参考基因组代表的患者可能会被排除在外。“所以它可以帮助解决信息问题。但归根结底,知道这一点[基因]会导致疾病,并不意味着我们该怎么做。特别是如果你谈论的是社会经济地位较低或没有社会资本来应对医疗保健系统的患者,得到答案很重要,但这只是漫长旅程的第一步。”
而且,如果没有更多来自代表性不足人群(尤其是在全球南方和土著社区)的基因组序列,就没有基础数据来理解疾病与遗传学之间的联系。如何收集和共享这些基因组序列是另一系列问题:基因学的历史充满了学术研究人员的伦理失败。南非研究员 Wonkam 呼吁一项在非洲对 200 万个基因组进行测序的项目——并赋予这些基因组所有者权力来决定如何使用它们。泛基因组提供了一个理解人类多样性的框架,但应该由人们来决定如何充实它。