

公开的社交媒体帖子包含着海量的信息,涉及世界各地数百万人次的活动、想法和一闪而过的念头。其规模之庞大令人难以置信——但同时也为公共卫生研究人员提供了机会,他们可以梳理这些海量数据,从中提取重要的公共卫生信息。
研究人员希望它能成为监测阿片类药物危机等情况的宝贵工具。在一项新研究中,通过机器学习程序分析和分类的关于阿片类药物和滥用阿片类药物的推文比例,与宾夕法尼亚州各县阿片类药物过量死亡人数的比例以及全国调查中测量的阿片类药物使用比例相吻合。
“最终目标当然是能够预测阿片类药物危机等潜在的危机。这正是我们正在努力的方向,”研究作者、埃默里大学医学院生物医学信息学助理教授Abeed Sarker在给《大众科学》的电子邮件中写道。
然而,也有人认为这些工具还没有真正有意义的应用。“这项技术还不能真正用于说明,我们应该在哪里集中干预力量,”宾夕法尼亚大学计算机与信息科学教授Lyle Ungar表示,他曾在这方面进行过研究。
该研究收集了2012年1月至2015年10月期间在宾夕法尼亚州发布的与阿片类药物相关的推文。研究团队使用了200多个代表阿片类药物使用的关键词,包括从随机生成的拼写错误到社交媒体使用中常见的镜像错误。他们手动审查了16,000条帖子,以了解关键词在帖子中的常用用法,并将550条帖子分为四类:自我报告的滥用或误用、信息共享、不相关和非英语。然后,他们用这些标注过的帖子训练了机器学习算法,其中一种是神经网络。神经网络表现最佳,识别出注明阿片类药物滥用的推文的准确率与人相当。
每个县中表示阿片类药物滥用的推文比例与该县的过量死亡人数比例相关。该比例还与美国国家药物使用和健康调查报告的非医疗处方阿片类药物使用、非法药物使用、非法药物依赖以及非法药物依赖或滥用的县级比例相关联/对应。
此前已有不少研究自动化了从社交媒体平台提取与阿片类药物相关信息的流程。“我们认为这个模型比以往的模型更稳健,因为它更能抵抗不相关的噪音——例如,如果一个名人因阿片类药物过量死亡,社交媒体上会有很多关于它的讨论,但这并不意味着人口水平的阿片类药物使用量有所增加,”Sarker说。
波士顿儿童医院医学毒理学研究员Michael Chary参与了其中一项先前研究。他的工作侧重于州一级的阿片类药物趋势。“这项研究将地理分辨率提高到了县一级,”他说。“提高分辨率很重要。我们从其他研究中了解到,城市和农村社区的阿片类药物使用模式不同,这表明对一个地区有效的政策可能对另一个地区无效。”
然而,该研究使用神经网络,使得人们更难确切地了解系统是如何对推文进行分类和处理的。“神经网络的透明度存在问题。这通常是一个限制,”他说。此外,深度卷积神经网络——本研究使用的类型——通常用于图像处理,最近才开始用于语言处理,因此在这种情况下它们尤其不透明,他说。
Sarker表示,识别最佳分析方法的努力应紧随其后进行研究,以确定如何最好地利用分析揭示的数据。“我们认为,我们已经达到了一个[时间]点,我们应该停止问我们是否可以使用社交媒体来执行公共卫生任务,”他说。“跨学科的合作研究是未来,可以帮助解决像阿片类药物危机这样的当前危机,并通过早期检测来预防未来的危机。”Sarker的生物医学信息学团队正与宾夕法尼亚大学毒理学家、该论文作者之一Jeanmarie Perrone合作,以确定能够帮助直接与受阿片类药物影响的群体打交道的专家的方法。
然而,Chary对应用很快发生持悲观态度。推文仍需作为流行病学数据来源进行验证。此外,推文还必须能够被证明在不久的将来能够预测阿片类药物的使用,而不仅仅是与以往的调查数据相匹配。“预测过去没有帮助。”
关于总体阿片类药物使用情况的大图景数据也未能区分不同类型的阿片类药物,而这对医生和干预目标制定者来说是重要信息。“那一层数据非常重要。把所有东西都归入一个信号会掩盖这一点,”Chary说。
Ungar还指出,只有一小部分人口使用Twitter,而且只有一些人愿意在网上谈论非法药物使用。“你得到的结果也存在奇怪的偏见。你衡量的是他们使用了多少毒品——以及他们有多愿意公开说出来。”
Ungar说,关于阿片类药物使用的推文数据可能有助于研究人员更好地理解人们*如何*谈论他们的阿片类药物使用,或者那些与之挣扎的人的特征。然而,他说,社交媒体数据到底有多大用处仍然不清楚。
“在找到谈论阿片类药物的推文,并能够将其用于公共卫生以确定我们应将资源瞄准何处之间存在脱节。”