

本文最初发表于 The Conversation。
机器学习已经在包括个性化医疗、自动驾驶汽车和定制广告在内的多个领域推动了界限。然而,研究表明,这些系统为了学习模式而会记住它们训练过的数据的各个方面,这引发了对隐私的担忧。
在统计学和机器学习中,目标是从过去的数据中学习,以便对未来数据做出新的预测或推断。为了实现这一目标,统计学家或机器学习专家会选择一个模型来捕捉数据中推测的模式。模型对数据应用一个简化的结构,这使得学习模式和做出预测成为可能。
复杂的机器学习模型有一些固有的优点和缺点。从积极的方面来看,它们可以学习更复杂的模式,并使用更丰富的数据集来完成图像识别和预测特定个体对某种治疗的反应等任务。
然而,它们也有过拟合数据的风险。这意味着它们对它们训练过的数据做出准确的预测,但开始学习与当前任务不直接相关的额外数据方面。这会导致模型无法泛化,意味着它们在相同类型但与训练数据不完全相同的新数据上的表现会很差。
虽然有一些技术可以解决与过拟合相关的预测误差,但从数据中学习如此多的内容也存在隐私问题。
机器学习算法如何进行推断
每个模型都有一定数量的参数。参数是模型中可以更改的元素。每个参数都有一个模型从训练数据中派生的值或设置。参数可以被认为是影响算法性能的各种旋钮。虽然直线模式只有两个旋钮,即斜率和截距,但机器学习模型有大量的参数。例如,语言模型GPT-3拥有 1750 亿个参数。
为了选择参数,机器学习方法使用训练数据,目标是最小化训练数据上的预测误差。例如,如果目标是根据病人的病史预测他们是否会对某种医疗治疗反应良好,那么机器学习模型就会对模型开发者知道某人反应良好或不良的数据进行预测。模型会因为正确的预测而获得奖励,而因为错误的预测而受到惩罚,这会导致算法调整其参数——也就是说,转动一些“旋钮”——然后重试。

为了避免过拟合训练数据,机器学习模型还会使用验证数据集进行检查。验证数据集是未用于训练过程的独立数据集。通过检查机器学习模型在此验证数据集上的性能,开发人员可以确保模型能够在训练数据之外泛化其学习,避免过拟合。
虽然这个过程成功地确保了机器学习模型的良好性能,但它并没有直接阻止机器学习模型记住训练数据中的信息。
隐私担忧
由于机器学习模型的参数数量庞大,机器学习方法有可能记住它所训练的一些数据。事实上,这是一种普遍现象,用户可以通过使用定制的查询来获取数据,从而从机器学习模型中提取被记住的数据。
如果训练数据包含敏感信息,例如医疗或基因数据,那么用于训练模型的人的隐私可能会受到损害。最近的研究表明,为了在解决某些问题时获得最佳性能,机器学习模型实际上有必要记住训练数据的各个方面。这表明机器学习方法的性能和隐私之间可能存在根本性的权衡。
机器学习模型还可以通过看似非敏感的数据来预测敏感信息。例如,Target 通过分析在 Target 婴儿注册表中注册的顾客的购物习惯,能够预测哪些顾客可能怀孕。一旦模型用这个数据集进行了训练,它就能通过发送与怀孕相关的广告来针对那些因为它认为购买了补充剂或无香型乳液等商品的顾客。
隐私保护是否可能?
尽管已经提出了许多减少机器学习方法中记忆量的方法,但大多数方法效果甚微。目前,最有希望的解决方案是确保隐私风险的数学限制。
正式隐私保护的最先进方法是差分隐私。差分隐私要求,如果训练数据集中某个个人的数据发生变化,机器学习模型不会发生太大变化。差分隐私方法通过在算法学习中引入额外的随机性来实现这种保证,这种随机性可以“掩盖”任何特定个人的贡献。一旦一个方法得到差分隐私的保护,任何可能的攻击都无法违反该隐私保证。
然而,即使机器学习模型使用差分隐私进行训练,这也不会阻止它做出敏感的推断,就像 Target 的例子一样。为了防止这些隐私泄露,所有传输给组织的数据都需要受到保护。这种方法称为本地差分隐私,而Apple和Google已经实施了它。

由于差分隐私限制了机器学习模型对某个个人数据的依赖程度,这可以防止记忆。不幸的是,它也限制了机器学习方法的性能。由于这种权衡,人们对差分隐私的有效性提出了批评,因为它通常会导致性能显著下降。
展望未来
由于推断学习和隐私担忧之间的紧张关系,最终存在一个社会问题,即在不同情境下哪一个更重要。当数据不包含敏感信息时,很容易推荐使用最强大的机器学习方法。
然而,在处理敏感数据时,权衡隐私泄露的后果很重要,而且为了保护用于训练模型的人的数据隐私,可能需要牺牲一些机器学习性能。
披露声明:Jordan Awan 从国家科学基金会和国家卫生研究院获得资助。他还担任联邦非营利组织 MITRE 的隐私顾问。