尽管Y染色体带有阳刚的联想,但它却是人类基因组46条染色体中最小的之一。它仅占人类细胞总DNA的2%。但由于其看似无穷无尽的重复碱基,Y染色体成为基因测序中最难的染色体之一。科学家最初认为它不过是基因的荒漠,只用于制造精子。
然而,实际上并非如此。随着基因技术的不断发展,我们对Y染色体重要性的理解也在不断加深。例如,老年男性Y染色体的缺失与癌症风险增加和其他慢性疾病相关。其基因以某种方式参与多种生物过程。但是,几十年来,Y染色体的一半以上仍未被测序,其在人类健康中的作用仍然是一个谜。
这个充满神秘的时代即将结束。基因学家首次完成了Y染色体的完整序列组装。国际端粒到端粒(T2T)联盟增加了超过3000万个新的碱基对数据,并确定了41个新的蛋白质编码基因。今天在《自然》杂志上发表的两篇 研究详细介绍了这些发现,解释了该染色体如何影响我们的生殖、进化,甚至肠道微生物群。
[相关:从迄今为止最完整的人类基因组图谱中,我们可能会学到关于胚胎和进化的什么?]
“Y染色体的完整序列为科学界打开了很多大门,”加州大学旧金山分校医学教授Chris Lau说。他研究人类Y染色体,但并未参与这些最新研究。“我们预计可能会有一些惊喜,就像过去我们曾认为它充满了垃圾材料一样。”
一张历经百年才完成的图景
在Y染色体于1905年被发现后,生物学家花了100多年才构建出其结构的完整组装。首个人类基因组于2003年4月完成,但留下了未知的空白,其中包括Y染色体的许多区域。
Miga说,该染色体的重复性使其难以重建。它拥有超过一百万个碱基对,排列成长串的重复序列。这些被称为回文结构,因为它们从前到后都是相同的。
所有染色体在其基因中都有一些重复,但Y染色体的重复量异常高。组装这些重复是一个耗时且昂贵的过程。“研究人员过去在研究这个问题时遇到了很多困难,因为我们缺乏重建这些真正复杂重复的合适工具,”Miga说。
长读序技术和计算组装方法的最新进展使得将每个重复序列按顺序排列变得更加容易。例如,该团队现在可以精确地识别断裂发生在DNA中的断裂导致片段以相反的顺序重新插入的位置——并利用这种技术来识别其他断裂。
填补数百万个空白
新技术为当前的人类基因组计划增加了3000多万个缺失的碱基对,使Y染色体总共达到62,460,029个碱基对。Miga说,Y染色体显示出一种独特的DNA序列组织方式,这种方式在其他染色体上奇怪地看不见。她认为需要大量的生物学新知识来理解这种组织方式的进化原因以及染色体各部分如何对应于人类功能。
[相关:我们离确定首个哺乳动物祖先又近了一步]
研究团队已经在重塑科学方面取得了一些进展。这些新发现的序列纠正了人类基因组参考序列中的一些错误和假设。它们还为Y染色体塑造人类生活的方式提供了新的见解。
“这是人类基因组领域一项极其重要的发现,”Lau说。
生育能力和蛋白质
Y染色体包含许多调节精子产生的基因。Miga说,其中一些新发现的基因组重复区域也在此过程中发挥作用。“理解人类之间可能存在的差异可以真正地为不孕症以及这种疾病是如何代代相传提供信息。”
对Y染色体的测序还揭示了41个新的蛋白质编码基因,其中38个是被称为TSPY的基因家族的额外拷贝,该基因家族被认为与精子产生有关。它们也可能负责男性性征的发育,但需要更多的研究来确定其确切作用。
人类进化的变异
商业祖先检测网站使用Y染色体来追踪父系血统。新的DNA序列可以进一步帮助研究人员了解人类是如何随着时间进化的。在第二项研究中,基因学家检查了43名基因多样性男性的Y染色体。他们发现了个体之间显著的基因变异。
在该染色体的某些部分,其组成部分——核苷酸——在男性之间非常相似。但Y染色体中一半的富含基因的区域具有较高的突变率,携带大型倒位,其速率比基因组的大部分其他区域都要高。这些遗传变异的差异可能已经进化到具有某些重要的生物学功能,尽管目前尚不清楚是什么。
纠正细菌混淆
在分析基因样本时,研究人员通常使用数据库来筛选属于人类DNA的序列。如果序列在当前人类基因组模型中找不到,科学家很可能会得出结论,认为该材料属于细菌。新的研究表明,一些尚未录入人类数据库的Y染色体序列曾被错误地标记为细菌。
并非无用
基因学家将继续从这个宝库般的数据中发掘新发现。对Y染色体的进一步分析可能会阐明该染色体在人类健康和疾病中的相关性。
Lau说,这些信息“将有益于人类进化和迁徙、法医学的研究,以及在人类疾病的诊断和预后开发中的许多转化应用,特别是对于疾病和癌症中Y染色体嵌合性丢失的科学原因。”