这个人工智能不是医生,但它的医学诊断相当准确

向人工智能咨询健康问题可能比WebMD更好,但确实存在一些限制。
doctor on computer
人工智能能比人类更好地诊断疾病吗?DEPOSIT PHOTOS

在过去十年里,不同的研究团队一直在宣传人工智能医生的概念。去年12月下旬,谷歌和DeepMind的计算机科学家推出了他们的人工智能医生版本,该医生可以使用名为PaLM的大型语言模型,根据患者症状诊断其病症。

根据该团队发布的预印本论文,他们的模型在美国执业医师资格考试问题基准测试中得分67.6%,他们声称这比之前最先进的软件高出17%。其中一个版本的人工智能表现与人类医生相当。但是,这种算法和其他类似算法都存在许多限制。

以下是关于该模型的一些快速事实:它在一个包含3000多个常见医疗问题的数据集以及另外六个现有的医疗问题和答案公开数据集(包括医学考试和医学研究文献)上进行了训练。在测试阶段,研究人员将人工智能的两个版本与人类医生的回答进行了比较,并评估了这些回答的准确性、事实性、相关性、有用性、与当前科学共识的一致性、安全性和偏见。

谷歌Chrome软件工程师Adriana Porter Felt(她并未参与该论文的研究)在Twitter上指出,表现与人类医生相似的人工智能版本采用了“指令微调”功能,这是一个耗时且难以规模化的手动过程。这包括以一种特定的方式仔细调整问题措辞,以便人工智能能够检索到正确的信息。

[相关:谷歌正在重大更新其提供健康信息的方式]

研究人员甚至在论文中写道,他们的模型“表现令人鼓舞,但仍不如医生”,并且模型的“理解(医学背景)、知识回忆和医学推理能力随着模型规模和指令微调而提高”。例如,与人类相比,人工智能的每个版本在错过重要信息和包含不正确或不恰当内容方面都更高。

语言模型在处理更复杂和更大容量的信息方面正在变得更好。它们在需要科学知识和推理的任务上也表现得不错。一些小型模型,包括SciBERTPubMedBERT,已经推动了语言模型理解充斥着行话和专业术语的文本的界限。

然而,在生物医学和科学领域,存在复杂的因素和许多未知数。如果人工智能出错,那么谁为医疗事故负责?当算法的很大一部分像黑箱一样运行时,能否追溯错误的根源?此外,这些算法(程序员给出计算机的数学指令)是不完美的,需要完整且正确的训练数据,而这些数据并非总是适用于不同人群的各种疾病。而且,购买和整理健康数据可能非常昂贵

在多项选择标准化考试中正确回答问题并不能代表智能。如果计算机面对真实的临床病例,其分析能力可能会不足。因此,尽管这些测试在纸面上看起来令人印象深刻,但大多数人工智能尚未准备好部署。考虑一下IBM的Watson AI健康项目。即使有数百万美元的投资,它仍然存在许多问题,而且在规模化方面不实用或不够灵活(最终以失败告终,并被拆分出售)。

谷歌和DeepMind确实认识到这项技术的局限性。他们在论文中写道,为了使该模型真正有用,仍有几个领域需要开发和改进,例如将响应的基础建立在权威、最新的医学来源上,以及能够有效地检测不确定性并将其传达给人类医生或患者。

 

更多优惠、评测和购买指南

 
Charlotte Hu Avatar

Charlotte Hu

助理科技编辑

Charlotte 是《趣味科学》的助理科技编辑。她对了解我们与技术的关系如何变化以及我们如何在网上生活感兴趣。


© .