

本文最初发表于 Undark。
十年前,12岁的罗里·斯汤顿在体育课上争抢球时,手臂擦伤了。第二天醒来时,他发高烧至104华氏度(约40摄氏度),父母带他去看儿科医生,最终去了急诊室。他们被告知只是流感。三天后,罗里死于败血症,因为擦伤处的细菌侵入了他的血液,引发了器官衰竭。
“在现代社会怎么会发生这种事?”他的父亲西伦·斯汤顿在最近接受Undark采访时说道。
在美国,败血症每年导致超过二十五万人死亡——比中风、糖尿病或肺癌的死亡人数还多。造成如此惨重损失的原因之一是,人们对败血症的认识不足,而且如果不能及时发现,败血症基本上就是死刑。因此,许多研究集中在早期捕获败血症,但该疾病的复杂性使得现有的临床支持系统——利用弹窗警报来改善患者护理的电子工具——在准确性和误报率方面存在诸多问题。
这种情况可能很快就会改变。今年7月,约翰·霍普金斯大学的研究人员在《自然》、《医学》和《npj数字医学》杂志上发表了三项研究,展示了一个使用人工智能的早期预警系统。该系统成功识别了82%的败血症病例,并将死亡率降低了近20%。虽然人工智能——在此例中是机器学习——长期以来一直有望改善医疗保健,但大多数证明其益处的研究都是基于历史数据集进行的。Undark的消息人士称,据他们所知,在患者身上实时使用时,还没有任何人工智能算法取得大规模成功的案例。约翰·霍普金斯大学机器学习与医疗保健实验室主任、这些研究的资深作者Suchi Saria在接受采访时表示,这项研究的新颖之处在于“人工智能在床边实施,被数千名医护人员使用,并且我们看到了挽救生命。”
目标实时早期预警系统(Targeted Real-time Early Warning System,简称TREWS)会扫描医院的电子健康记录——即患者病史的数字化版本——以识别预测败血症的临床体征,提醒医护人员注意高风险患者,并促进早期治疗。研究合著者、约翰·霍普金斯大学内科医生Albert Wu表示,TREWS利用海量数据,提供实时的患者洞察,并对其推理过程提供独特的透明度。
Wu表示,该系统还预示着医疗电子化的新时代。自20世纪60年代首次推出以来,电子健康记录重塑了医生记录临床信息的方式,但他补充说,几十年后,这些系统主要仍充当“电子记事本”。Saria表示,随着约翰·霍普金斯大学和其他研究团队在机器学习项目上取得进展,以新的方式使用电子记录有望改变医疗保健的提供方式,为医生提供“额外的眼耳”——并帮助他们做出更好的决策。
这是一个诱人的愿景,但Saria作为开发TREWS公司的首席执行官,在该愿景中拥有经济利益。该愿景也忽略了实施任何新技术所面临的困难:医护人员可能不愿信任机器学习工具,而这些系统在受控研究环境之外可能无法发挥最佳作用。电子健康记录也存在许多现有问题,从让医护人员不堪重负的行政工作到因软件故障而带来的患者安全风险。
尽管如此,Saria仍然持乐观态度。“技术已经存在,数据也已经到位,”她说。“我们确实需要高质量的医疗辅助工具,使医护人员能够‘少投入,多产出’。”
目前,没有单一的检测方法可以确诊败血症,因此医护人员必须通过审查患者病史、进行体格检查、进行检测并依靠临床判断来拼凑诊断。鉴于这种复杂性,在过去十年里,医生越来越依赖电子健康记录来帮助诊断败血症,主要通过使用基于规则的标准——即“如果出现这种情况,那么就采取那种措施”。
其中一个例子是SIRS标准,该标准规定,如果四种临床体征中的两种(体温、心率、呼吸频率、白细胞计数)异常,患者就有患败血症的风险。这种广泛性虽然有助于捕捉败血症的各种表现方式,但会触发无数的假阳性。加州华盛顿医院的重症监护室医生Cyrus Shariat举例说:“一个有骨折的病人。‘电脑系统可能会说,“嘿,你看,心率快,呼吸快。”它可能会发出警报。”病人几乎肯定没有败血症,但仍然会触发警报。”
这些警报还会以弹窗的形式出现在医护人员的电脑屏幕上,迫使他们中断正在进行的工作来响应。因此,尽管这些基于规则的系统有时能降低死亡率,但存在“警报疲劳”的风险,即医护人员开始忽略这些恼人的提醒。纪念休斯顿健康系统创伤外科医生、前首席临床官M. Michael Shabot表示:“这就像火警一直在响。你就会麻木。你就不再注意了。”
鉴于这种复杂性,在过去十年里,医生们越来越依赖电子健康记录来帮助诊断败血症。
事实上,电子记录在医生中并不受欢迎。在2018年的一项调查中,71%的医生表示,电子记录极大地加剧了他们的职业倦怠,69%的医生认为电子记录占用了他们与患者宝贵的时间。另一项2016年的研究发现,医生每花一小时进行患者护理,就需要额外花两个小时处理电子健康记录和桌面工作。西北大学急诊医学系主任James Adams将电子健康记录称为“信息混乱的泥潭”。
但Adams也表示,医疗行业正处于转变这些文件的转折点。他认为,电子记录不应仅仅是医生或护士输入数据,而“需要转变为临床护理提供工具”。通过普遍部署和实时患者数据,电子记录可以提醒医护人员注意败血症和其他各种疾病,但这需要比基于规则的方法更多的东西。
根据Shabot的说法,医生们需要的是一个能够整合各种临床信息流的算法,在出现问题时提供更清晰、更准确的图景。
机器学习算法通过寻找数据中的模式来预测特定结果,例如患者患败血症的风险。研究人员使用现有的数据集来训练算法,这有助于算法创建一个反映世界运作方式的模型,然后对新数据集进行预测。算法还可以主动适应并随着时间的推移而改进,无需人为干预。
TREWS就遵循了这一通用模式。研究人员首先使用175,000例患者就诊的电子记录历史数据来训练该算法,使其能够识别败血症的早期迹象。在测试表明TREWS可以在患者实际接受治疗前数小时识别出败血症患者后,该算法就被部署到医院,以实时影响患者护理。
Saria和Wu发表了三篇关于TREWS的研究。第一篇研究旨在确定系统的准确性、医护人员是否会使用它,以及使用它是否能导致更早的败血症治疗。第二篇研究进一步探讨了使用TREWS是否能实际降低患者的死亡率。第三篇研究则描述了20名测试该工具的医护人员对机器学习的看法,包括哪些因素能促进信任,哪些因素会阻碍信任。
在这些研究中,TREWS监测急诊科和住院病房的患者,扫描其数据——生命体征、实验室结果、用药、临床病史和医护人员的记录——以寻找败血症的早期信号。(Saria说,医护人员自己也可以做到这一点,但可能需要20到40分钟。)如果系统根据对数百万个数据点的分析怀疑器官功能障碍,它就会标记该患者,并提示医护人员确认败血症、驳回警报或暂时暂停警报。
“电子记录不应仅仅是医生或护士输入数据,而是‘需要转变为临床护理提供工具’。”Adams说。
“这就像一个同事在告诉你,基于数据并查阅了该患者的所有病历,为什么他们认为有理由担忧,”Saria说。“我们非常希望我们的前线医护人员能够提出异议,因为他们最终是近距离观察患者的。”TREWS则会根据医护人员的反馈不断学习。这种实时改进以及TREWS考虑到的数据多样性,使其区别于其他用于败血症的电子记录工具。
除了这些功能上的差异,TREWS不会通过持续不断的弹窗向医护人员发出警报。相反,该系统采用一种更被动的策略,警报以患者列表上的图标形式出现,医护人员可以稍后点击。最初,Saria担心这可能过于被动:“医护人员不会听,他们不会同意。你很可能会被忽略。”然而,临床医生对89%的系统警报做出了响应。正如第三项研究通过深入访谈所揭示的那样,TREWS被认为比以前基于规则的系统“不那么令人讨厌”。
Saria表示,TREWS的高采用率表明医护人员会信任人工智能工具,但康奈尔大学健康信息学副教授Fei Wang对这些发现如果更广泛地部署TREWS会有多大程度上保持其有效性持怀疑态度。尽管他称这些研究是“开创性”的,并且认为其结果令人鼓舞,但他指出,医护人员可能是保守的,并且不愿意改变:“说服医生使用他们不熟悉的另一个工具并不容易,”Wang说。任何新系统在被证明有效之前都是一种负担。信任需要时间。
TREWS的另一个限制是它只了解电子健康记录中输入的信息——系统实际上并不在患者床边。正如一位急诊科医生在第三项研究的采访中所说,该系统“无法帮助它看不到的东西。”而根据Wang的说法,即使是它能看到的东西,也充斥着缺失、错误和过时的数据。
但Saria表示,TREWS的优势和局限性与医护人员是互补的。虽然算法可以实时分析大量的临床数据,但它始终受限于电子健康记录的质量和全面性。Saria补充说,目标不是取代医生,而是与他们合作,增强他们的能力。
根据卡内基梅隆大学机器学习和运筹学助理教授Zachary Lipton的说法,TREWS最令人印象深刻的方面不是模型的创新性,而是其在两年内成功部署到五家医院和2000名医护人员身上的努力。“在这个领域,有大量的线下研究,”Lipton说,但相对较少的研究“能够真正广泛地部署在大型医疗系统中。”他补充说,进行“真实世界”的研究之所以如此困难,是因为它需要跨越产品设计师、系统工程师和管理人员等各个学科的合作。
因此,TREWS通过展示算法在大型临床研究中的有效性,加入了一个精英俱乐部。但这种独特性可能会短暂存在。例如,杜克大学的Sepsis Watch算法目前正在三家医院进行测试,结果即将公布。与TREWS不同的是,Sepsis Watch使用一种名为深度学习的机器学习技术。虽然这可以提供更强大的见解,但深度学习算法得出结论的过程是不可解释的——计算机科学家称之为“黑箱问题”。输入和输出是可见的,但中间过程是无法穿透的。
一方面,人们会问这是否真的是个问题。例如,医生并不总是知道药物的作用机制,Adams说,“但总有一天,我们必须相信药物的作用。”例如,锂是一种广泛使用的、有效的双相情感障碍治疗药物,但没有人真正理解它的作用原理。如果人工智能系统同样有用,也许可解释性就不重要了。
Wang认为这是一个危险的结论。“你怎么能有信心地说你的算法是准确的?”他问道。毕竟,当一个模型的机制是黑箱时,很难确定任何事情。这就是为什么TREWS作为一个可以解释自身的更简单的算法,可能是一个更有前景的方法。“如果你有一套规则,”Wang说,“人们可以很容易地在任何地方进行验证。”
确实,医护人员信任TREWS很大程度上是因为他们可以看到用来得出警报的测量数据。在接受采访的临床医生中,没有人完全理解机器学习,但这种程度的理解并非必需。一位使用TREWS的医护人员表示:“我能看到所有影响决策的因素,这对建立信任很有帮助。我认为我的理解不必超过这一点。”
在机器学习中,虽然算法的具体设计很重要,但结果必须自己说话。通过捕获82%的败血症病例并缩短1.85小时的抗生素使用时间,TREWS将患者死亡率降低了近五分之一。“这个工具首先非常好,其次受到临床医生的欢迎,并且第三,它对死亡率产生了影响,”Adams说。“这种结合使其非常特别。”
另一方面,加州华盛顿医院的重症监护室医生Shariat对这些发现持谨慎态度。首先,这些研究仅比较了接受TREWS警报并在3小时内得到确认的败血症患者与未得到确认的患者。“他们只是告诉我们,我们正在研究的这个警报系统,如果有人响应它,就会更有效,”Shariat说。一个更严谨的方法是进行随机对照试验,这是医疗研究的金标准,即一半患者的电子记录中有TREWS,而另一半则没有。Saria表示,考虑到患者安全问题,随机化很难实现,Shariat也同意。尽管如此,他表示这种缺失“使得数据不够严谨”。
Shariat还担心,警报量过大,其中大约三分之二的警报是假阳性,可能会加剧警报疲劳——并且可能导致过度的液体和抗生素治疗,这可能导致肺水肿和抗生素耐药性等严重的医疗并发症。Saria承认,TREWS的假阳性率虽然低于现有的电子健康记录系统,但肯定可以改进,但她表示,临床医生继续使用自己的判断仍然至关重要。
这些研究也存在利益冲突:Saria有权从TREWS获得收入分成,约翰·霍普金斯大学也是如此。“如果这个东西大获成功,并且他们卖给每家医院,那将是巨额的利润,”Shariat说。“这是数十亿数十亿美元。”
Saria坚称,这些研究经过了严格的内部和外部审查程序来管理利益冲突,并且绝大多数研究作者都没有从这项研究中获得经济利益。尽管如此,Shariat表示,进行独立的验证以确认这些发现并确保系统真正具有普遍适用性至关重要。
根据布莱根和妇女医院内科主任David Bates的说法,Epic Sepsis Model是一个广泛使用的算法,它可以扫描电子记录,但不使用机器学习,这是一个警示的例子。他解释说,该模型在几家医院开发时取得了令人鼓舞的结果,然后才部署到数百家医院。然后,该模型性能下降,仅识别了33%的败血症患者,假阳性率为88%。“你无法真正预测性能会下降多少,”Bates说,“除非你真的去看看。”
这些研究也存在利益冲突:Saria有权从TREWS获得收入分成,约翰·霍普金斯大学也是如此。
尽管存在潜在的缺点,罗里的母亲Orlaith Staunton告诉Undark,TREWS本可以挽救她儿子的生命。“我儿子的情况完全崩溃了,”她说,在他病情严重到无法挽回之前,他的医生们没有一个人考虑败血症。她补充说,一个预警系统能够提醒他们注意这种疾病,“将带来天壤之别。”
罗里去世后,斯汤顿夫妇创立了非营利组织End Sepsis,以确保没有其他家庭不得不经历他们的痛苦。由于他们的努力,纽约州强制要求医院制定败血症治疗方案,美国疾病控制与预防中心(CDC)宣布败血症为医疗紧急情况。但罗里的父亲Ciaran Staunton说,这一切都无法让他儿子回来:“我们永远不会再快乐了。”
这项研究对Saria来说也很个人化。将近十年前,她的侄子死于败血症。发现时,他的医生已经无能为力。“一切都发生得太快了,我们就这样失去他了,”她说。她强调,这正是早期检测如此重要的原因。生死可能只在咫尺之间。“去年,我们在火星上驾驶直升机,”Saria说,“但我们每天仍然在杀害病人。”
Simar Bajaj在哈佛大学学习科学史,是斯坦福大学和麻省总医院的研究员。