

本文最初发布于 The Conversation。
社交媒体用户发布了关于如何在最高法院推翻罗诉韦德案后保护人们生殖隐私的建议,其中包括向用于追踪月经周期的应用程序输入“垃圾”数据。
人们使用经期追踪应用来预测下次月经来潮时间、与医生讨论周期以及确定受孕期。用户会记录从食欲到经期流量的所有信息,应用会根据这些输入进行预测。应用预测有助于做出简单的决定,例如何时购买卫生棉条,并提供改变人生的观察结果,例如是否怀孕。
提交垃圾数据的论点是,这样做会扰乱应用的算法,使当局或不法分子难以或不可能利用这些数据侵犯人们的隐私。然而,这一论点站不住脚。
作为研究人员,我们开发和评估帮助人们管理健康的科技,我们分析应用公司如何收集用户数据以提供有用的服务。我们知道,对于流行的经期追踪应用来说,需要数百万人输入垃圾数据才能稍微影响算法。
此外,垃圾数据是一种“噪声”,这是开发者设计算法以抵抗的固有问题。即使垃圾数据成功地“混淆”了算法,或者为当局调查提供了过多数据,这种成功也将是短暂的,因为该应用将不再准确地服务于其预期目的,人们也会停止使用它。
此外,这也不会解决现有的隐私担忧,因为人们的数字足迹无处不在,从互联网搜索到手机应用使用和位置追踪。这就是为什么那些敦促人们删除经期追踪应用的建议好意但却偏离了重点。
应用如何工作
首次打开应用时,您需要输入年龄、上次月经开始日期、周期长度以及使用的避孕方法。一些应用会连接到其他应用,如健身追踪器。您需要记录相关信息,包括月经开始日期、痉挛、分泌物稠度、食欲、性欲、性行为、情绪和流量大小。
一旦您将数据提供给经期应用公司,这些数据具体如何处理尚不清楚,因为算法是专有的,并且是公司商业模式的一部分。有些应用会询问用户的周期长度,而用户可能不知道。事实上,研究人员发现,25.3% 的人表示他们的周期长度是常被引用的 28 天;然而,只有 12.4% 的人实际拥有 28 天的周期。因此,如果应用使用您输入的数据来预测您的情况,它可能需要几个周期才能计算出您的周期长度并更准确地预测您的周期阶段。
应用可以根据应用公司收集到的所有用户数据进行预测,或者根据您的基本人口统计信息进行预测。例如,应用算法知道体重指数较高的人可能有 36 天的周期。或者,它可以采用一种混合方法,根据您的数据进行预测,但将其与公司从所有用户那里收集的大型数据集进行比较,以告知您什么是典型的——例如,大多数人会在月经来潮前感到痉挛。
提交垃圾数据能达成什么目的
如果您定期使用经期追踪应用并提供不准确的数据,该应用个性化的预测,例如下次月经来潮的时间,也可能变得不准确。如果您的周期是 28 天,而您开始记录您的周期现在是 36 天,应用应该会调整——即使这些新信息是错误的。
但总体数据呢?合并多个用户数据的最简单方法是取平均值。例如,最受欢迎的经期追踪应用Flo,估计有 2.3 亿用户。设想三种情况:单个用户、2.3 亿用户的平均值以及 2.3 亿用户加上 350 万提交垃圾数据的用户的平均值。

这个简单的例子说明了三个问题。提交垃圾数据的用户不太可能影响任何单个应用用户的预测。需要付出极大的努力才能改变整个群体潜在的信号。即使这种情况发生了,污染数据也会使那些需要该应用的人无法使用它。
保护隐私的其他方法
为了回应人们对经期应用数据被滥用的担忧,一些经期应用公开声明将创建匿名模式,使用端到端加密并遵循欧洲隐私法。
任何“匿名模式”的安全性取决于其实际功能。Flo 的声明称,该公司将通过删除姓名、电子邮件地址和技术标识符来去标识化数据。删除姓名和电子邮件地址是一个好的开始,但该公司并未明确“技术标识符”的含义。
随着德克萨斯州为起诉任何协助他人寻求堕胎的人铺平道路,而美国 87% 的人可以通过仅凭邮政编码、性别和出生日期等基本人口统计信息进行识别,任何人口统计数据或标识符都有可能对寻求生殖保健的人造成伤害。存在一个巨大的用户数据市场,主要用于定向广告,这使得人们有可能了解美国几乎所有人的大量信息。
虽然端到端加密和欧洲通用数据保护条例(GDPR)可以保护您的数据免受法律调查,但遗憾的是,这些解决方案都无法解决人们在使用日常技术时留下的数字足迹。即使是用户的搜索历史也可以识别出他们怀孕的周数。
我们真正需要什么?
我们认为,人们不应费尽心思绕过技术来减少潜在的伤害和法律麻烦,而应倡导数字隐私保护以及数据使用和共享的限制。公司应与人们有效沟通并听取他们的反馈,了解他们的数据如何被使用,他们面临潜在伤害的风险水平,以及他们的数据对公司的价值。
近年来,人们一直对数字数据收集表示担忧。然而,在罗诉韦德案被推翻后的世界里,更多人会因为进行标准的健康追踪而面临法律风险。
Katie Siek 是印第安纳大学信息学教授兼系主任。Alexander L. Hayes 是印第安纳大学健康信息学博士生。Zaidat Ibrahim 是印第安纳大学健康信息学博士生。Katie Siek 从美国国家科学基金会获得资助。她隶属于计算机研究协会和计算社区联盟。