苹果如何找出哪些表情符号最受欢迎

欢迎来到差分隐私的迷人世界。
表情符号集。表情符号集。笑脸图标。在白色背景上隔离的矢量图
happy emoticon joy
这个家伙非常开心。由 yayayoyo 通过 depositphoto 拍摄

在一篇充斥着行话的论文中,苹果公司公布了其用户发送的流行表情符号的排名,而至少从那个快照来看,最大的赢家是那个熟悉的、带着喜悦泪水的笑脸。简单的红心位居第二。

表情符号简单而有趣,但苹果公司找出哪些表情符号受欢迎的方式却绝非如此。该公司最近在其机器学习期刊上发表了这篇包含表情符号排名的文章,文章解释了他们如何在保护个人隐私的同时,收集有关表情符号等内容的整体数据。

为了实现这一点,他们使用了一种名为差分隐私的计算机科学策略。简而言之,这意味着在数据中添加某种噪声以模糊个人手机上的数据,但之后——在将这些有噪声的数据与其他人的有噪声数据合并后——他们仍然可以从整体层面理解他们收集到的内容。

“差分隐私”是一个令人困惑的术语,但其概念却引人入胜。

宾夕法尼亚大学计算机与信息科学副教授 Aaron Roth 说,想象一下,你想要在选举前进行一次民意调查,以确定有多少人会投票给民主党候选人。民意调查员打电话给选民,询问他们将投票给谁,并记录在账簿上。但如果该记录被泄露或被盗,人们的姓名和政党偏好就会暴露。通过这种方法,你可能会知道哪个候选人可能获胜,但你却将人们的隐私置于危险之中。

现在想象一下,民意调查员——他们和以前一样,仍然想知道哪个候选人可能会获胜——打电话给选民,问他们一个不同版本的问题。首先,他们要求选民抛硬币。如果硬币出现正面,选民被指示如实回答他们将投票给哪个政党。但如果出现反面,他们被告知在两个政党之间随机选择一个并说出来。换句话说,反面意味着民意调查员有 50% 的几率听到“共和党”,50% 的几率听到“民主党”。总而言之,使用这种方法,民意调查员听到选民真实投票意愿的几率是 75%,听到虚假信息的几率是 25%。存在噪声,但这种噪声是故意添加的。民意调查员甚至不知道他们听到的答案是否真实,只知道它是真实的可能性。

这意味着,即使民意调查员的账簿公开,也不会有任何个人选民信息受到侵犯。Roth 说:“你无法对任何一个人的投票意向形成强烈的信念。”“每个人都会有合理的否认理由。”如果你的数据被泄露,没有人会知道它是准确的还是不准确的。

但关键是,民意调查员仍然可以计算出他们预测选举所需的平均值,因为他们知道他们使数据产生噪声的具体方式。宏观图景是清晰的,但微观图景是模糊的。

Roth 说:“这是一个非常简单的例子,但差分隐私为隐私提供了一个正式的定义,并为更普遍地完成这类事情提供了一种方法。”

Emoji ranking iphone
在表情符号的世界里,爱仅次于快乐,位居第二。苹果

这是苹果公司在分析表情符号使用等行为趋势时使用的通用方法。该公司在其机器学习博客上写道:“它根植于一个理念,即经过仔细校准的噪声可以掩盖用户的数据。”“当许多人提交数据时,添加的噪声会平均化,有意义的信息就会浮现。”

Roth 说,差分隐私是解决特定类型问题的重要工具。如果你试图弄清楚一个人是否患有癌症需要治疗,差分隐私是一种糟糕的策略——显而易见。但如果你想知道特定人群中患有癌症的比例,差分隐私可能就是找出答案的方法。Roth 说:“当你想了解的不是关于个人的某个事实,而是某个群体的一些统计特征时,差分隐私就很有用。”

苹果公司解释说,当用户选择与他们共享此类数据时,在手机上的数据应用噪声后,会有一部分随机加密的样本发送到苹果服务器。“这些记录不包含设备标识符或事件生成时间戳,”该公司在其博客上写道。

任何 iOS 用户都可以选择是否共享:前往“设置”,然后是“隐私”,接着是“分析”,然后切换“共享 iPhone 分析”的开关来开启或关闭。

 

更多优惠、评测和购买指南

 
Rob Verger Avatar

Rob Verger

技术编辑

罗布·沃格尔是《流行科学》杂志的前技术编辑。他擅长报道航空、交通和军事技术。


© .