本文最初发布于 KFF Health News。
为癌症患者准备应对艰难决策是肿瘤科医生的职责。然而,他们并不总是记得这样做。在宾夕法尼亚大学医疗系统,人工智能算法会提醒医生谈论患者的治疗和临终偏好,该算法可以预测死亡的几率。
但它远非“一劳永逸”的工具。2022 年的一项研究显示,一次例行的技术检查发现,该算法在新冠疫情期间有所衰退,预测谁会死亡的准确性下降了 7 个百分点。
这很可能产生了实际影响。埃默里大学肿瘤科医生 Ravi Parikh 是该研究的首席作者,他告诉 KFF Health News,该工具曾数百次未能促使医生与有需要的患者 initiate 重要的讨论——可能避免不必要的化疗。
他认为,许多旨在改善医疗保健的算法在疫情期间都出现了弱化,不仅仅是宾大医疗的那个。“许多机构没有例行监控其产品的性能,”Parikh 说。
算法故障只是一个方面,这是计算机科学家和医生长期以来都认识到但现在却开始让医院高管和研究人员感到困惑的困境:人工智能系统需要持续的监控和人员配备,才能投入使用并使其良好运行。
简而言之:你需要人力和更多的机器,来确保新工具不会出错。
斯坦福医疗保健首席数据科学家 Nigam Shah 表示:“每个人都认为人工智能将帮助我们解决可及性和容量问题,改善护理等等。所有这些都很好,但如果它使护理成本增加了 20%,那是否可行?”
政府官员担心医院缺乏资源来充分测试这些技术。“我一直在广泛寻找,”美国食品药品监督管理局局长 Robert Califf 在近期的一次人工智能机构小组会议上说。“我不认为在美国有任何一个医疗系统能够验证一个被部署在临床护理系统中的人工智能算法。”
人工智能在医疗保健领域已经非常普遍。算法被用于预测患者死亡或病情恶化的风险,提出诊断建议或对患者进行分诊,记录和总结就诊过程以节省医生工作量,以及批准保险索赔。
如果科技倡导者说得对,这项技术将变得无处不在——并且有利可图。投资公司 Bessemer Venture Partners 已经识别出约 20 家专注于医疗的人工智能初创公司,它们有望每年各创造 1000 万美元的收入。美国食品药品监督管理局已经批准了近千种人工智能产品。
评估这些产品是否有效具有挑战性。评估它们是否持续有效——或者是否出现了软件相当于“爆缸”或“漏油”的情况——则更加棘手。
以耶鲁大学医学中心最近的一项研究为例,该研究评估了六个“早期预警系统”,这些系统会在患者可能迅速病情恶化时向临床医生发出警报。芝加哥大学医生、该研究提供算法的公司之一的联合创始人 Dana Edelson 表示,一台超级计算机运行了数天的相关数据。这一过程卓有成效,显示出这六种产品的性能存在巨大差异。
医院和医疗服务提供者很难为他们的需求选择最佳算法。普通医生身边并没有超级计算机,也没有人工智能的《消费者报告》。
美国医学会前任主席 Jesse Ehrenfeld 表示:“我们没有标准。今天我无法向你指出任何一个标准,用于评估、监控、查看算法模型(无论是否由人工智能驱动)在部署后的性能。”
医生办公室中最常见的人工智能产品可能是所谓的“环境文档记录”,这是一种支持技术、能够聆听并总结患者就诊过程的助手。去年,Rock Health 的投资者追踪了 3.53 亿美元流入这些文档记录公司。但 Ehrenfeld 说:“目前没有比较这些工具输出结果的标准。”
这是一个问题,因为即使是小错误也可能造成毁灭性的后果。斯坦福大学的一个团队尝试使用大型语言模型——这是 ChatGPT 等流行人工智能工具背后的技术——来总结患者的病史。他们将结果与医生书写的记录进行了比较。
斯坦福大学的 Shah 表示:“即使在最好的情况下,模型也存在 35% 的错误率。” 在医学领域,“当你写总结时,漏掉一个词,比如‘发烧’——我的意思是,那是个问题,对吧?”
有时算法失败的原因相当合乎逻辑。例如,底层数据的更改会削弱其有效性,就像医院更换了实验室提供商一样。
然而,有时隐患却毫无征兆地出现。
波士顿马萨诸塞总医院(Mass General Brigham)个性化医疗项目的技术主管 Sandy Aronson 说,当他的团队测试一个旨在帮助遗传咨询师查找与 DNA 变异相关的文献的应用程序时,该产品出现了“非确定性”——也就是说,在短时间内多次询问相同的问题,却得到了不同的结果。
Aronson 对大型语言模型在总结知识以帮助不堪重负的遗传咨询师方面的潜力感到兴奋,但“这项技术需要改进。”
如果衡量指标和标准稀少,错误又可能出于奇怪的原因出现,那么机构该怎么办?投入大量资源。在斯坦福大学,Shah 说,仅仅为了审计两个模型的公平性和可靠性,就花了八到十个月的时间和 115 个工时。
KFF Health News 采访的专家提出了“人工智能监控人工智能”的想法,并由一些(人类)数据专家同时监控两者。所有人都承认,这将需要组织花费更多的资金——鉴于医院预算的现实情况以及人工智能技术专家的稀缺供应,这是一个艰难的要求。
Shah 说:“有一个愿景,我们为了让一个模型监控其模型而融化冰山,这很棒。但那真是我想要的吗?我们还需要多少人?”
KFF Health News 是一个全国性的新闻编辑室,致力于制作关于健康问题的深度新闻报道,并且是KFF的核心运营项目之一——KFF是一个独立的健康政策研究、民意调查和新闻机构。了解更多关于 KFF 的信息。