美国一项情报项目如何培养出一支“超级预测者”团队

在《错配》一文中,我们深入探讨了国防工业核心的科学与技术——士兵与间谍的世界。

大约在2011年,沃伦·哈奇(Warren Hatch)还在华尔街从事金融交易时,他读了一本书,这本书对他影响深远。这本书名为《专家政治判断:它有多准确?我们如何得知?》(*Expert Political Judgment: How Good Is It? How Would We Know?*),作者是心理学家菲尔·泰特洛克(Phil Tetlock),他当时是加州大学伯克利分校的商学教授。

这本书已经出版几年了,哈奇很好奇泰特洛克之后在做什么,于是他访问了这位学者的网站。令他惊讶的是,他在网站上发现了一个邀请。泰特洛克正在寻找愿意预测地缘政治事件的人。他想不想试试预测未来?哈奇说,他记得当时的想法是:*谁不想呢?*

哈奇立即报名参加,很快就加入了一个虚拟团队,这个团队正在尝试预测各种假设的未来全球事件的可能性。他们对诸如“A国是否会在未来六个月内与B国宣战?”或“X是否会在Z年5月10日之前卸任Y国总统职务?”之类的问题给出基于概率的答案。答案会是这样的形式:该问题答案为“是”的概率是75%,为“否”的概率是25%。

“我只是觉得这是消磨时间的一种有趣方式,”哈奇说。

这对哈奇来说可能很有趣,但对美国情报界来说,这是严肃的事情。该部门的研发机构——情报高级研究计划活动局(IARPA)——正在资助该项目。泰特洛克与一团队学者一起,参与了这家间谍机构的“聚合偶然性估计”(Aggregative Contingent Estimation,简称ACE)计划。

ACE计划旨在“大幅提高情报预测的准确性、精确性和及时性”,正如其介绍页面所言。

泰特洛克与同事芭芭拉·梅勒斯(Barbara Mellers)一起领导了一个ACE团队,试图实现这种大幅度的提升——而且要比其他四个竞争团队做得更好。泰特洛克成功的秘诀是一群像哈奇这样的专家预测者。

成为超级预测者

当时,哈奇并不了解主要研究人员或IARPA的宏伟设想。然而,在他为泰特洛克做出预测一段时间后,发生了一些奇怪的事情。“一些表现更好的团队成员消失了,”哈奇说。

这并非阴谋:研究人员将这些技巧娴熟的预测者称为“超级预测者”,因为他们的一贯准确性。哈奇后来得知,这些预测者已经被安排到与他们一样优秀的人组成的团队中。

哈奇渴望跻身他们的行列,于是开始模仿他们的行为。他变得更加积极主动,在预测中留下评论解释自己的推理,并根据新信息修改自己的预测。“几个月后,我开窍了,”他说,“我开始明白了。”

在第二年,哈奇被邀请成为一名超级预测者。

认识Good Judgment团队

当时总部设在宾夕法尼亚大学的这个团队自称为Good Judgment。他们以压倒性优势赢得了ACE竞赛。“ACE计划最初的想法是‘群体智慧’,它一直在寻求超越标准群体智慧的方法,”IARPA的项目经理史蒂文·里伯(Steven Rieber)说。

该团队的预测准确性必须逐年提高。到第一年结束时,Good Judgment的预测准确性已经达到了决赛所需的水平。

伊娃·陈(Eva Chen)是其他(落败的)ACE团队之一的博士后,她在第一年过渡到第二年时饶有兴趣地关注着比赛。“这就像一场赛马,”她说,“所以每次一个问题结束时,你都能看到你的团队表现如何。”每一次,她都能看到Good Judgment团队的表现优于她的团队和大众。她回忆道:“他们在做什么?”

陈所在的团队最终解散了,其他所有团队也都解散了,只剩下Good Judgment,她后来加入了这个团队。IARPA也只继续与Good Judgment合作。陈将找出他们与其他团队不同的地方作为自己的使命。

很快她就发现了:她之前的团队专注于开发先进的计算算法——对群体智慧进行复杂的数学处理,使其更加明智。相比之下,Good Judgment则专注于人为因素。它跟踪预测的准确性,并确定了一群比其他人始终更优秀的人:即所谓的超级预测者。它还培训了其预测者,教授他们诸如认知偏差等因素。(最著名的错误之一是确认偏差,它导致人们寻找并更看重支持自己已有想法的证据,而忽略或回避相反的证据。)并且将他们组成团队,以便他们能够分享关于他们预测主题的知识和推理策略。然后,在经过培训、组队、跟踪的预测之后,它才使用机器学习算法来统计地合并参与者的预测。

虽然这个过程对Good Judgment的成功至关重要,但超级预测者(现在已成为注册商标的术语)这一要素最受关注。然而,令人好奇的是,超级预测者——那些在预测未来方面始终比该领域的专家(如情报分析员)更出色的人——并不是Good Judgment在IARPA研究中的预期结果。“我没有料到,”里伯说,“我想谁也没有料到。”

里伯称,这些预测者之所以表现更好,部分原因在于他们运用了“积极的开放思维”。

“他们倾向于批判性地思考,不仅思考出现的某个观点,还思考对该观点的反驳意见或反例,”里伯说。他们也很擅长在面对新证据时修正自己的判断。基本上,他们擅长自我“红队演练”,批判、评估并质疑所有想法,包括他们自己的——本质上无论意见来自哪里,都扮演着“魔鬼代言人”的角色。

看到超级预测者身上的商业价值,Good Judgment的ACE团队很快就成为了Good Judgment公司,并从一个与间谍相关的竞赛中分离出来。自那时以来,金融、能源、供应链物流、慈善事业以及一如既往的国防和情报等领域的求知者们,都对这些预测精英所看到的未来付费感兴趣。

陈留了下来,最终成为Good Judgment的首席科学家。该公司目前有三个主要收入来源:咨询、培训研讨会和提供与超级预测者对接的机会。它还有一个名为Good Judgment Open的网站,任何人都可以提交预测来参与众包话题的讨论,以娱乐或有机会被招募为官方、公司认可的超级预测者。

并非魔法

然而,Good Judgment和超级预测者都不是完美的。“我们没有水晶球,”里伯说。而且他们的预测并非在所有情况下都有用:例如,他们从不声称某事*会*发生,就像一棵树一定会倒在森林里一样。他们的预测是基于概率的:这棵树有80%的概率会倒下,20%的概率不会。

哈奇承认,当已经有大量基于概率的公开预测时(例如石油价格),以及当几乎没有公开信息时(例如政治决策基于机密数据),预测的价值就不大。

从情报角度来看(情报界自己的超级预测者可能能够接触到上述机密信息),预测仍然存在其他局限性。首先,猜测未来只是间谍计算的一个方面。预测无法处理现在(X国此刻是否拥有核武器计划?)、过去(导致Z独裁者死亡的原因是什么?),或事件背后的逻辑(A国和B国为何会开战?)。

其次,具有预测性答案的问题必须极其具体。“政策制定者关心的某些关键问题没有得到精确表述,”里伯说。例如,他说,国家情报总监办公室(ODNI)今年的威胁评估报告称:“我们预计,随着中国继续增加在(台湾)岛屿周围的军事活动,摩擦将加剧。”但“摩擦”是一个模糊的词,并且“增长”没有量化。

“尽管如此,这仍然是政策制定者有意义的说法,也是他们关心的事情,”里伯说。

这个过程通常还需要包含一个日期。例如,Good Judgment Open网站当前不是问“是否会有一种新型冠状病毒变种取代奥密克戎,并占美国病例的70%以上?”,而是问“在2023年4月16日之前,非奥密克戎的SARS-CoV-2变种是否会占美国COVID-19总病例的70.0%以上?”这不是因为4月有特别的意义:而是因为该团队需要一个截止日期。

通常,公司或情报机构不会把这类问题带给Good Judgment。为了得到他们真正想要的答案,公司会“绕过”这个问题。“我们与他们合作,起草一系列问题,”陈说,这些问题加起来可以提供他们想要的答案。例如,一家宠物店可能想知道猫是否会比狗更受欢迎。Good Judgment可能会将其分解为“到2023年2月,狗的受欢迎程度是否会下降?”、“到2023年2月,猫的受欢迎程度是否会上升?”以及“根据民意调查,到2023年2月,公众对猫的喜爱度是否会增加?”宠物店可以从这些答案中推断出如何进行投资。也许吧。

现在,IARPA和里伯正在将预测推向未来,推出了一个名为REASON(Rapid Explanation Analysis Sourcing Online)的新项目。REASON将未来预测推向了可能一直发展的方向:自动化。“这个想法是利用最近的人工智能突破,为分析员提供即时建议,”他说。

在这个未来,硅基建议将扮演ACE中人类同行所扮演的角色:与人类合作,努力改进他们的推理,从而改进他们对未来走向的猜测,以便他们能将这些可能改进后的预测传递给*其他*人类:那些做出决策、从而决定世界会发生什么的人。

播下怀疑的种子

项目之外,英国杜伦大学商学院的研究员康斯坦蒂诺斯·尼科洛普洛斯(Konstantinos Nikolopoulos)对超级预测提出了不同于其准确性的批评,他认为其他人已经跟进并证实了其严谨性。然而,他说,“有些东西感觉不太对劲。”

他的疑虑在于其效用。在现实世界中,真正的超级预测者(来自Good Judgment本身)的用处非常有限,因为他们人数很少,而且首先要识别他们需要很长时间。“有些超级预测者被锁在一个秘密房间里,他们可以被拥有他们访问权限的人随意使用,”他说。

因此,尼科洛普洛斯和同事们进行了一项研究,以确定Good Judgment的普遍观点——有些人比其他人更善于洞察未来——是否可以应用于更小范围的人群(314人,而不是5000人),在更短的时间内(九个月,而不是几年)。

在他们的小群体和缩短的时间框架内,他们确实发现了两位超级预测者。尼科洛普洛斯认为,基于这项结果,任何中小型组织都可以预测自己的未来:举办自己的竞赛(配备适当的奖项和激励措施),识别其预测能力最佳的员工,然后利用他们(同时补偿他们)来帮助确定公司的方向。表现最好的人只需要比普通预测者更出色即可。

“有令人鼓舞的经验证据表明,这可以在任何组织中实现,”尼科洛普洛斯说。这意味着,尽管他不喜欢这个词,Good Judgment的发现是可以“民主化”的。

当然,人们仍然可以与Good Judgment及其注册商标的预测者签订合同。该公司实际上也提供“Staffcasting”计划,帮助识别和培训客户的员工来做尼科洛普洛斯所建议的事情。但这仍然需要通过这家一家独大的公司。“如果你负担得起,就去做吧,”他说,“但我绝对相信,可以在内部完成。”

Good Judgment当然希望你光顾他们的“家”并支付他们的服务,尽管他们确实为外部人士提供培训,并致力于在线上提供更多此类服务。未来,该公司还致力于解决不同*类型*的问题——例如与“存在风险”相关的问题。“那些会彻底摧毁人类,或将其减少到几乎被消灭的程度的事情,”哈奇说。“这些可能是一颗流星撞击地球。这是一种。另一种是外星人入侵。”

在研究方面,该公司希望提高其识别“黑天鹅”(意外的、罕见的事件)早期证据的能力,而不是“非常非常暗淡的灰色天鹅”(dark gray swans),哈奇说。你知道,像大流行病这样的事件。

五年后,Good Judgment能否成功地预测未来?时间会证明一切。

阅读更多 PopSci+ 文章。

 

更多优惠、评测和购买指南

 
Sarah Scoles Avatar

Sarah Scoles

特约编辑

莎拉·斯科尔斯 (Sarah Scoles) 是一位自由科学记者,也是《科技新时代》的常客,自 2014 年以来一直为该刊物撰稿。她关注科学技术与社会、企业和国家安全利益的互动方式。


© .