关于 Encode 项目的戏剧性事件,以及为什么大科学和小科学不同

在一项创新的同行评审形式中,一位生物学家对一项基因组研究联盟进行了辛辣而激烈的批评。原因如下。

如果每篇新摘要都像丹·格劳尔(Dan Graur)最新的贡献一样,人们就不需要任何TLC真人秀了——他们可以从研究论文中获得他们想要的所有戏剧性。格劳尔的新论文,是对一个备受吹嘘的基因组学项目的抨击,其中包含了一些在严肃、通常是端庄的科学文献界中出现过的最激烈的语言。

在电话里,格劳尔同样直率:“他们的数据分析太离谱了,”他说。“这太糟糕了。这根本不是科学。”

故事是这样的:DNA元件百科全书(ENCODE)项目是一项为期五年的努力,涉及数百人,他们试图揭示人类基因组中所谓的非编码区或“垃圾”区域的功能。去年9月发布时,领导该项目的科学家声称,它将颠覆几十年来关于基因组如何工作的假设,并导致教科书被改写。他们说,基因组的大部分是生物学上活跃的——它是有功能的。但许多进化生物学家对这种描述和对“功能”一词的宽松定义感到恼火。

“我们同意,许多关于市场营销、大众媒体炒作和公共关系的书籍可能确实需要改写,”格劳尔和他的同事在《基因组生物学与进化》杂志上写道。

格劳尔是休斯顿大学分子进化生物信息学教授,也是对一个全球遗传学和生物信息学研究者联盟的激烈回应的主要作者,这次回应引起了进化生物学家的极大不满。

“像人类基因组计划这样的大型科学项目应该发布数据。小型科学项目应该进行分析。”主要的抱怨之一是:Encode的作者是计算科学家,而不是生物科学家。“他们是计算机专家,”格劳尔说。“像人类基因组计划这样的大型科学项目应该发布数据。小型科学项目应该进行分析。”

在进化生物学中,“功能”是一个敏感的词——一个器官、一段DNA或一个细胞可以执行一个被选择的功能和一个因果功能。简单来说,被选择的功能是带来进化优势的东西,而因果功能则不是。在论文中,格劳尔以人类心脏为例:它进化的功能是向全身泵血。因果功能是它产生声音的能力。顺便说一句,这对你的医生或私人教练很有用,但这并不是心脏的主要功能

如果你把人类基因组想象成一本教科书,你可以把Encode想象成脚注,旨在提供对所有核苷酸都在做什么的见解。它注释了构成基因及其调控区域的所有32亿个A、C、G和T核苷酸。在此过程中,Encode论文以一种宽松的方式定义了功能,包括DNA所做的一切。研究表明,我们DNA的绝大多数在至少一种细胞类型中参与至少一次“生化事件”,并认为这是一种功能。但圣路易斯华盛顿大学的系统生物学家迈克·怀特(Mike White)表示,这种定义充其量是宽松的,而且甚至不是该项目的目标。怀特批评了Encode的炒作,但(与格劳尔不同)称赞了它对科学的价值。相反,其目标是全面测量基因组的生化特征,让科学家们能够利用这些测量数据。

“这些特征将帮助其他科学家真正发现功能区域,”他说。

维基共享资源

生化功能包括广泛的活动,例如转录成RNA的DNA序列;被调控蛋白结合的区域,这些蛋白可能会开启或关闭基因;在细胞中打包DNA的染色质中没有被紧密包裹的区域;等等。(有关这些生物功能活动的非常详细的描述,请阅读科学美国人的化学家兼博主阿舒托什·乔迦莱卡(Ashutosh Jogalekar)的这篇深入分析。)重点是,虽然这些确实是“功能”,因为它们在做某事,但它们所做的事情并不一定有意义。

格劳尔在电话里是这样解释的:“你有没有踩过一块口香糖?它粘在你的鞋底上。但这不是口香糖的功能,在炎热的一天粘在鞋子上。”

怀特说,这些活动测量起来很有用,因为它们可以与功能相关联——但不一定与它们相关联。他表示,确定功能很困难,需要做更多的工作。

在自己的实验室里,怀特正在研究一种特定的调控蛋白,该蛋白与基因组中约10,000个位点的DNA结合,并帮助开启或关闭一个基因。他试图确定这种结合事件是否与基因激活有关,以及蛋白质在细胞中漂浮时是如何沿着基因组找到路径的。10,000个结合事件中的每一个可能都有功能,蛋白质可能采取“乱枪打鸟”的方式进行非特异性“噪声”DNA结合,或者可能发生了其他事情。

“对于这个问题,Encode的数据是有用的。我有一个基因组区域列表,这些区域被调控蛋白结合,我可以测试它们,从而深入了解,某些DNA特征的哪些方面能够激活基因,而另一些则不能?”他说。“这些都是将从Encode数据中产生的发现。”

其他生物学家也很乐意使用这些数据,尽管他们仍然对数据的呈现方式表示不满。爱丁堡大学罗斯林研究所ARK-Genomics主任米克·沃森(Mick Watson)在博客文章中写道,他不同意Encode的定义。

“然而,我确实认识到,科学和其他许多学科一样,需要并受益于持有反对意见的人。你对功能的看法肯定与我的看法相反;然而,至少,你所取得的成就是激发了关于这个话题的辩论,这对每个人都有益,”他写道,并补充说格劳尔的论文为年轻科学家树立了坏榜样。

格劳尔对这项研究还有其他几个问题,其中数据分析是最重要的。他感叹Encode的许多分析师和研究人员是计算机科学家,而不是生物学家。他说他觉得他不得不站出来。他说,自那以后,学生、博士后和其他年轻研究人员都感谢他发表了他的论文。

“许多人反对语气,但实际上语气就是关键。我是一名教授,我已获得终身教职……有时候你需要我这样的老古董来做这件事,”他说。“科学是关于提出假设并驳斥它们。许多处理数据和分析数据的人都忘记了这一点。”

怀特同意,一些贡献者缺乏进化生物学背景,这可能助长了炒作——科学家们夸大了他们的发现。他也认为这可能导致了强烈反对和持续的不满。

“人们对此感到愤慨,当有人来自不同领域,然后开始对你自己的领域做出笼统的陈述,而他们对此一无所知,而且这些笼统的陈述是错误的,”他说。

“我有点惊讶一篇如此愤怒的论文在未经修改的情况下就通过了——它在露骨的煽动性陈述方面有点过头了——但另一方面,我理解这种愤怒。我们中的许多人都非常生气,”他说。“现在我们必须看看,这些数据是否有用?他们会开始用这些数据发表真正有价值的研究吗?我们拭目以待。”

 

更多优惠、评测和购买指南

 
丽贝卡·博伊尔是一位屡获殊荣的自由撰稿人,她撰写关于天文学、人畜共患病以及介于两者之间的各种主题的文章。她是《大西洋月刊》的特约撰稿人,她的作品经常出现在《大众科学》、《新科学家》、《FiveThirtyEight》、《连线》以及许多其他面向成人和儿童的出版物上。丽贝卡在科罗拉多州长大,离太空更近一英里,现在住在圣路易斯,靠近大陆两条最强大的河流的交汇处。

© .