

上周,疑似金州杀人狂被捕的消息让许多人大吃一惊。在此之前,侦探们能够通过 DNA 追踪到这位涉嫌的连环强奸犯和杀人犯,很多人并未认真考虑将自己的遗传物质交给私人公司的后果。现在,(再次强调,疑似但未定罪的)金州杀人狂的表亲的数据据称帮助破解了这个长期未解的案件,人们不得不开始反思自己以及他人 以 DNA 样本(更不用说 Facebook)的形式,已经自愿给了公司多少信息。以及 他们应该给了多少?
历史上充斥着 DNA 追踪出错的例子。拿那位神秘的女连环杀手来说,她的遗传物质 出现在欧洲数十个犯罪现场。匹配度如此一致,警方确信一定是一位多产的女杀手。事实上,DNA 匹配如此精确,是因为它属于一位在警方提供棉签用品的工厂工作的女性(棉签未获得 DNA 收集认证——糟糕!)。
一名休斯顿男子被判入狱四年,因为 DNA 证据似乎将他与一起强奸案联系起来。直到他母亲看到一篇关于犯罪实验室分析错误的报道后,一位律师才重新审查了数据,并意识到技术人员在分析样本时犯了根本性的错误。
这并不是说此案中的嫌疑杀人犯是无辜的;他将接受审判,由陪审团来评估现有证据。网络基因共享可能正好帮助将一名恶劣的强奸犯和杀人犯绳之以法。但这个消息恰好提醒我们,DNA 分析是一个棘手——且越来越流行、廉价和易于获取——的工具。
但对许多人来说,这个消息最令人惊讶的是,它表明消费者 DNA 测试能够揭示你的血统真相。在不同的 DNA 检测套件上,你可能会得到关于民族和血统的不同结果,这是可能甚至很可能发生的。那么,这有什么不同呢?
首先,关于 DNA 检测如何工作的简介
这里的困惑部分源于不理解遗传学家在分析你的 DNA 时真正看的是什么。大多数方法依赖于所谓的 SNP(稍后详述),但区分寻找你的祖源和确定你的直系亲属在于你如何处理这些 SNP。并非所有公司都同时追踪直系亲属和遥远的民族谱系,但 Ancestry 等公司会——它们会追踪你可能的远房表亲,并提供你古代祖先可能来自何处的摘要。
“当你寄送样本给我们时,第一步是从口腔细胞中提取 DNA,以便进行基因分型。DNA 包含大约三十亿个字母,但我们查看的是 70 万个特定位置,这些位置是我们知道在人类之间存在差异的,” Ancestry 的人口遗传学家 Julie Granka 说。
这些特定位置被称为 SNP,是 单核苷酸多态性 的缩写。当你的 DNA 在身体制造新细胞时被复制时,机器经常会犯一些错误。大多数主要的错误都会被捕获。如果关键蛋白质的代码出错,该细胞通常根本无法存活,而且你还有一些拼写检查蛋白来修复错误。但很容易在单个位置出现错误。
你的 DNA 由称为核苷酸的构建块组成,科学家称之为 A、T、C 和 G(代表腺嘌呤、胸腺嘧啶、胞嘧啶和鸟嘌呤),它们会配对。在一个 DNA 链上有 A 时,梯子另一端的匹配链应该有 T,C 和 G 也是如此。偶尔,复制链的蛋白质会在一个不重要的 DNA 区域意外插入错误的核苷酸。也许它根本不编码任何东西(你的大部分 DNA 都不编码!),或者也许它是一个足够小的错误,不会改变细胞的功能。这就是 SNP:在单个位置发生的单个变化。
一些 SNP 会导致疾病,但出于基因检测的目的,我们只关注良性位点。
由于这些 SNP 不会影响细胞的功能,因此不会被修复。它们会代代相传。所以,如果一千年前在英国的一个人,在 3455 号位置发生了一个 A 被 C 替换的 SNP,那么那个人的大部分后代都会有完全相同的 SNP。更重要的是,因为你可能有数十亿个可能的发生位置,SNP 是独一无二的。如果你在 3455 号位置有一个 A 到 C 的 SNP,那么你的祖先很有可能来自英国。如果你没有,这并不意味着你不是英国人——这只意味着你没有那个特定的标记。
由于你很可能与你的近亲共享许多 SNP,Ancestry 等公司可以使用相同的 SNP 数据来找出谁可能是你的表亲(只要那个人在他们的数据库中)。所以,在一定程度上,许多基因检测只是基于你与任何其他人共享的 DNA 百分比(通过 SNP 估算)。但情况比这更复杂一些。
祖源检测和家族检测在根本上是不同的,但也奇怪地相似
23andMe 和 Ancestry 等公司拥有包含 SNP 的数据库,它们已将这些 SNP 追溯到世界上的特定地区。当他们处理你的样本时,他们会将你的 SNP 集与他们的数据库进行比较,然后使用匹配项来确定你的祖先可能来自哪些地区。
但这个过程并不完美。Granka 解释说,你的家谱信息是基于统计模型的。它只能告诉你你可能来自哪里。Ancestry 和该领域的所有其他公司一样,建立了参考人群数据库。你的结果直接反映了公司使用的参考人群,这就是为什么你会得到不同的答案。
这意味着 你所有的祖源数据基本上都是估计值。这就是为什么公司会给你的结果一个置信区间。他们可能会说你是 48% 东欧人,但他们对此结果的把握在 30% 到 80% 之间。大多数人关注 48%,而忘记了结果并不确定。但无论如何强调都不为过:所有祖源结果都基于一个模型,而模型可能会出错。公司正在使用尖端的科学方法来确定哪些参考人群来自世界的哪些地区,但这始终是基于假设和估计。
另一方面,家谱检测则更为直接。“我们正在寻找你与其他数据库中的人匹配的 DNA 链,” Granka 说。“完全相同的链来自共同的祖先。”所以,如果 A 先生和 B 先生 共享大约 12.5% 的 DNA——完全相同——我们可以说 A 和 B 拥有共同的祖父母。如果 C 先生和 D 先生共享 50% 的 DNA,那么这两人要么是父子/母女,要么是同父同母的兄弟姐妹。
看出来区别了吗?祖源检测基于可能出错的模型,而家谱检测则关乎纯粹的数学。
这与你向公司提供多少信息无关
这与我们所有人提供了多少信息有关。所谓的金州杀人狂并不是因为他主动交出了自己的 DNA 才被抓获的。是一位表亲将他自己的 DNA 上传到一个免费的业余网站,该网站允许用户通过全基因组序列查找亲戚——而他可能是通过某种付费服务获得的。一些公司,如 23andMe 和 Ancestry,允许客户下载他们的原始数据,然后他们可以将这些数据上传到其他网站。
部分原因在于 像 GEDmatch 这样的公司——那位表亲使用的网站——导致我们迅速面临与 DNA 相关的隐私问题。像 Ancestry 和 23andMe 这样的公司历来拒绝执法部门的请求,也许是因为他们知道消费者不会乐意将他们的 DNA 交给可能将这些数据交给警方的公司。但这并不意味着他们能够顶住法院的命令。
更重要的是,这甚至与你个人提交什么无关。如果足够多的人提供了他们的 DNA,公司或执法部门理论上就可以开始为其他人建立个人资料,就像 Facebook 可以拥有非 Facebook 用户的信息一样。当你交出你的基因数据时,你就永远交出了。没有人能告诉你这对你个人来说是否是明智之举,但你应该仔细考虑潜在的后果——尤其是当这一切都只是为了一个估计值时。
如果侦探、律师以及犯罪实验室技术人员在我们拥有的有限 DNA 证据上已经犯了错误,可以想象,他们有了整个数据库会犯下多少错误。即使是金州杀人狂也差点被误认——2017 年,当侦探声称他们有证据表明一位 73 岁的俄勒冈男子是连环杀手时,一家俄勒冈法院强迫他提供 DNA 样本。错误是会发生的。DNA 并非无懈可击,我们最好记住这一点。是的,将你的全基因组交给一个免费网站可以帮助你找到失散多年的亲戚。甚至可能有助于将一名危险的罪犯绳之以法。但这也可能导致你的一个表亲因为他们没有犯下的罪行而被带走。
注意:本文的早期版本错误地将 DNA 碱基对称为“氨基酸”。当然,它们不是,作者想感谢 Twitter 让她保持诚实和准确。