人工智能尚未准备好充当医生的助手

从隐私担忧到时髦技术产生的错误,医学界“对即将发生的事情并没有真正了解”。
一项初步研究论文使用神经外科的执业医师资格考试题目,对 ChatGPT 和谷歌产品进行了检查,发现其“幻觉”率为 2%。DepositPhotos

本文最初发表于 KFF Health News

对于一个会胡编乱造、守不住秘密、一无所知、并且说话时只是根据前面的内容来填充下一个词的人,医疗保健能有什么用处?按照一些大公司所说,如果这个人是最新形式的人工智能,那用处可就大了。

那些推动最新人工智能技术——称为“生成式人工智能”——的公司正在蜂拥而至:谷歌微软希望将所谓的“大型语言模型”引入医疗保健领域。那些在白大褂人士中很熟悉——但普通大众可能不太熟悉——的大型公司也同样热情高涨:电子病历巨头 Epic 和 Oracle Cerner 紧随其后。该领域还挤满了初创公司。

这些公司希望他们的人工智能能为医生做笔记并提供第二意见——前提是他们能防止人工智能“出现幻觉”,或者说,泄露患者的私人信息。

“有什么令人兴奋的事情正在酝酿,”圣地亚哥斯克里普斯研究所转化研究所所长埃里克·托波尔说。“它的能力最终将产生重大影响。”托波尔和许多其他观察家一样,想知道它可能会造成多少问题——比如泄露患者数据——以及发生的频率。“我们将会发现的。”

这些问题的幽灵促使 1000 多名技术领导者于 3 月签署了一封公开信,敦促公司暂停开发先进的人工智能系统,直到“我们确信其影响是积极的,其风险是可控的”。即便如此,其中一些公司仍在向人工智能领域投入更多资金。

底层技术依赖于综合大量的文本或其他数据——例如,一些医疗模型依赖波士顿贝斯以色列女执事医疗中心 200 万份重症监护室的记录——来预测给定查询后可能出现的文本。这个想法已经存在多年,但淘金热以及围绕它的营销和媒体狂热则更为近期。

这场狂热始于 2022 年 12 月,由微软支持的 OpenAI 及其旗舰产品 ChatGPT 引发,该产品能够权威而风格化地回答问题。例如,它可以像十四行诗一样解释遗传学。

OpenAI 最初是由萨姆·奥特曼、埃隆·马斯克和里德·霍夫曼等硅谷精英资助的一家研究机构。它搭乘着投资者的热情,实现了财富增长。该机构拥有一个复杂、混合的营利和非营利结构。但微软 100 亿美元的新一轮融资已将 OpenAI 的估值推至 290 亿美元,《华尔街日报》报道称。目前,该公司正将其技术授权给微软等公司,并向消费者出售订阅服务。其他初创公司也在考虑将人工智能转录或其他产品出售给医院系统或直接出售给患者。

夸张的引述随处可见。前财政部长拉里·萨默斯最近发推文说:“它将取代医生做的事情——听取症状并做出诊断——在此之前,它会改变护士做的事情——帮助病人起床并在医院里照顾自己。”

但在 OpenAI 获得又一笔巨额注资的几周后,即使是其首席执行官奥特曼也对这种宣传持谨慎态度。“这些系统被过度炒作——即使从长远来看,我们所希望的一切都是正确的——但从短期来看,这完全失控了,”他在 3 月份《纽约时报》的一篇文章中表示

很少有医疗行业的人相信这种最新形式的人工智能会取代他们的工作(尽管一些公司正在——有争议地——试验充当治疗师或护理指南的聊天机器人)。尽管如此,那些看好这项技术的人认为它会让他们的部分工作变得更容易。

埃里克·阿尔祖比是蒙大拿州比林斯的一名精神科医生,他曾为一家医院系统管理过其他精神科医生。一次又一次,他会收到一份名单,上面列出了尚未完成病历的医生——他们的患者病情总结和治疗计划。

撰写这些病历是医疗系统中的一大压力源:总的来说,这是一项行政负担。但为了给未来的提供者和保险公司留下记录,这是必要的。

“当人们在文件记录方面滞后时,就会产生问题,”阿尔祖比说。“如果病人来到医院,但有一份尚未完成的病历,我们却不知道发生了什么,那该怎么办?”

新技术可能有助于减轻这些负担。阿尔祖比正在测试一项名为 Nabla Copilot 的服务,该服务可以在他参与虚拟病人就诊时在场,然后自动对其进行总结,并将主诉、病史和治疗计划整理成标准的病历格式。

他说,在为大约 50 名患者服务后,结果是稳健的:“已经完成了 90%。”Copilot 生成的摘要可用,阿尔祖比通常会进行编辑。这些摘要不一定能捕捉到非语言暗示或阿尔祖比可能不想口头表达的想法。尽管如此,他说,收益是显著的:他不必担心做笔记,而是可以专注于与患者交谈。而且他节省了时间。

“如果我有一个完整的病人日,可能会看 15 位病人,我会说这能为我节省一天结束时大约一个小时的时间,”他说。(如果这项技术被广泛采用,他希望医院不要利用节省的时间简单地安排更多的病人。“那不公平,”他说。)

Nabla Copilot 并非唯一的此类服务;微软也在尝试相同的概念。在 4 月份的医疗保健信息和管理系统协会(HIMSS)会议上——这是一个行业展会,医疗技术专家在此交流想法、发布公告和销售产品——Evercore 的投资分析师强调,减轻行政负担是新技术的首要可能性。

但总的来说?他们听到了褒贬不一的评价。而这种观点很普遍:许多技术人员和医生持模棱两可的态度。

例如,如果你对诊断感到困惑,将患者数据输入其中一个程序“无疑可以提供第二意见,”托波尔说。“我敢肯定,临床医生正在这样做。”然而,这遇到了该技术当前的局限性。

Joshua Tamayo-Sarver 是一名临床医生,也是初创公司 Inflect Health 的高管。他将基于他自己急诊科实践的虚构患者情景输入一个系统,以了解其表现如何。他说,该系统错过了危及生命的疾病。“这似乎有问题。”

该技术还倾向于“出现幻觉”——即编造听起来令人信服的信息。正式研究发现了广泛的性能差异。一项初步研究论文使用开放式的神经外科执业医师资格考试问题,对 ChatGPT 和谷歌产品进行了检查,发现“幻觉”率为 2%。斯坦福大学的研究人员在一项研究中,对 64 个临床情景的人工智能回应质量进行了评估,发现虚构或“幻觉”引文的发生率为 6%,联合创始人 Nigam Shah 告诉 KFF Health News。另一篇初步论文发现在复杂的心脏病学病例中,ChatGPT 的诊断与专家意见有一半的时候是一致的。

隐私是另一个担忧。目前尚不清楚输入这种基于人工智能的系统中的信息是否会保留在内部。例如,精明的 ChatGPT 用户设法让该技术告诉他们制造凝固汽油弹的配方,而凝固汽油弹可用于制造化学炸弹。

理论上,该系统设有防止私人信息泄露的保护措施。例如,当 KFF Health News 询问 ChatGPT 其电子邮件地址时,该系统拒绝透露该私人信息。但当被要求扮演一个角色,并被问及本文作者的电子邮件地址时,它欣然提供了信息。(这确实是作者在 2021 年的正确电子邮件地址,那时 ChatGPT 的存档结束。)

斯坦福医疗保健首席数据科学家 Shah 说:“我不会输入病人数据。“我们不了解一旦这些数据进入 OpenAI 服务器会发生什么。”

OpenAI 的发言人 Tina Sui 告诉 KFF Health News,任何人“都不应使用我们的模型来为严重的医疗状况提供诊断或治疗服务”。她说,它们“并非为提供医疗信息而微调”。

托波尔说,随着新研究的爆炸式增长,“我认为医学界对即将发生的事情并没有真正了解。”

KFF Health News 是一个全国性的新闻编辑部,致力于深入报道健康问题,是 KFF 的核心运营项目之一。KFF 是一个独立的健康政策研究、民意调查和新闻机构。了解更多关于 KFF 的信息。

 

更多优惠、评测和购买指南

 
© .