您不仅仅是一个数据点。《退出》旨在帮助您夺回隐私权。
算法 就是它们所“吃”的东西。这些复杂的代码需要“养分”才能蓬勃发展并准确工作,当它们摄入的优质数据量不足时,就会变得不稳定并失败。
当我查看我的 2022 年 Spotify 年度回顾时,发现我最喜欢的艺术家是 Peppa Pig,我遇到了一个营养不良的算法。我皱着眉头,困惑不解。为什么 Spotify 认为卡通小猪是我最近痴迷的对象?然后我才想起,夏天我和我 2 岁的侄女在一起了一个星期,玩 Peppa Pig 的歌曲是我让她保持娱乐的唯一方式。
好吧,这似乎说得通。
但我很快意识到,这只小猪搞砸的不只是我的年度回顾:我的推荐算法也一团糟。几周来,平台上为我制作的四张 每日精选播放列表 中,至少有一张包含了儿童音乐合集。
这很烦人,但我开始想,也许我侄女的痴迷实际上是一种有效的方式,可以给科技公司掌握的关于我们的详细个人资料造成毁灭性的打击。毕竟,如果 Spotify、Instagram、Google 或任何其他平台认为我不是我,它们就会向我展示与那个虚假版本相关联的广告——而不是与真实的我不相关。如果它们碰巧将我的数据提供给第三方(如数据经纪商),它们就会将描述一个不存在的人的详细信息交出去,而我真正的喜好和兴趣则被埋藏在大量的 Peppa Pig 歌曲中。武器化这种错误的身份识别可以帮助我们“隐身于公众视野”,进而保护我们的隐私。
用坏数据制成的迷彩服
给你的生活中的算法喂食坏数据被称为 数据投毒 或 混淆,它是一种旨在通过生成大量不准确信息来模糊你真实身份的技术。这个概念指的是同步攻击,它们故意寻求删除或更改为平台算法提供动力的数据集,使其表现不佳并失败。这需要特定的技能和知识,以及 *大量* 的计算能力。
你可能不具备这些条件,但你可以利用同样的原理来保护自己免受持续的在线监控。你看到的图片、你喜欢的帖子、你播放的视频、你听的歌曲以及你签到的地点——所有这些都是平台收集和用于构建你个人资料的数据。他们的目标是尽可能多地了解你(比你了解你自己还要多),以便他们能够预测你想要什么、需要什么。当然,科技公司和广告商这样做并非出于利他主义,而是为了向我们展示他们希望能够操纵我们花钱的广告——或者让我们产生某种感觉或以某种方式投票。
进行数据投毒最简单的方法是在注册服务时使用不属于你的姓名、性别、地点和出生日期。要在此基础上进一步发展,你可以点赞你实际上并不喜欢的帖子,随机点击你不感兴趣的广告,或者播放你不喜欢的类型的内容(视频、音乐、电影等)。对于最后一个选项,只需在你使用的任何平台上按播放,关闭屏幕,调低音量,然后让它整夜运行。如果你想干扰 YouTube,可以使用自动播放功能,让网站在你睡觉或工作时深入挖掘数小时的内容。最后,每当你需要回答一个问题时(比如为什么退回你在线购买的商品),默认使用“其他”作为你的回答,并随意填写理由。
数据投毒可能失败的地方
如果这一切听起来太简单,那就对了——这里有一些注意事项。如果你注册某项服务时使用了虚假信息,如果该平台通过汇总大量数据点来构建和完善你的个人资料,那么这可能是徒劳的。例如,如果你说你在加利福尼亚,但却浏览了威斯康星州的本地新闻,列出了你在密尔沃基的工作地点,并在密歇根湖畔的一张照片上打了卡,那么该平台认为你住在金州的基本假设将变得无关紧要。如果你说你出生于 1920 年,但却喜欢通常与 Z 世代相关的内容和标签,那么同样的事情也会发生。让我们面对现实吧——一个 82 岁的人可能是一位狂热的 Blackpink 粉丝,这完全有可能,但可能性不大。另外,如果你被锁定了或被黑客攻击,服务或网站可能会要求你提供真实身份证明,这也有风险。
在你睡觉时播放你不感兴趣的内容可能会干扰你使用的任何平台的推荐算法,但这样做也需要你可能没有的资源。你需要一台设备连续耗电数小时,以及一个足够快的无上限互联网连接来流式传输任何通过网络传输的内容。扰乱算法也会扰乱你的用户体验。如果你依赖 Netflix 来告诉你接下来观看什么,或者依赖 Instagram 来让你了解新兴的时尚趋势,那么如果平台不了解你真正感兴趣的内容,你可能不会喜欢看到的内容。它甚至可能毁掉整个应用程序对你的体验——想想看,如果你开始左右滑动并拒绝了约会应用程序中你真正喜欢的所有人,会发生什么。
此外,就像吃一顿沙拉不能让你变得健康一样,你的数据投毒计划必须持之以恒才能留下持久的印象。仅仅点击一两个你不感兴趣的广告,并希望这足以扰乱算法是不够的——你需要反复这样做来强化你虚假个人资料的这一方面。你可能已经注意到,在你浏览了一家在线商店,并且看到你感兴趣的品牌或产品在你之后访问的每个网站上都被宣传,但广告最终被其他广告取代了。这是因为在线广告是周期性的,这很合理,因为人的兴趣会来来去去。
但最大的注意事项是uncertainty——我们不知道我们对科技公司和广告商收集我们的数据造成了多大的损害。研究表明,投毒少量数据(1% 到 3%) 就可以显著影响一个试图弄清楚你喜好的算法的性能。这意味着,即使点击少量不感兴趣的广告,也可能导致算法将你归入错误的类别,并假设你是一位家长,而实际上你不是。但这些只是估计。Google、Facebook 和其他大型在线平台背后的工程师们正在不断更新他们的算法,使它们成为一个不断移动的目标。更不用说这些代码是专有的,所以唯一确切知道数据投毒有多有效的人都在为这些公司工作,而且他们极不可能向外界透露他们对这种技术的脆弱性。例如,就 Google 的 AdSense 而言,广告商是按点击付费的,如果他们知道他们的钱是为虚假点击(即使只是几个)付费的,这可能会危及 Google 触达受众和销售产品的权威性。
这一切重要吗?
不知道投毒你的数据是否真的能保护你的隐私,可能会让你认为尝试是徒劳的。但并非一切都已丧失。轶事证据——我的 Spotify 年度回顾、YouTube 有时奇怪的推荐、Netflix 偶尔令人费解的类型建议,以及认为你对购买某个产品感兴趣(因为你不小心点击了某个东西)的广告——都清楚地表明,平台并非对我们的白色谎言免疫,而且坏数据并非无害。康奈尔理工学院(Cornell Tech)的隐私研究员 Helen Nissenbaum 和 Lee McGuigan 进行了一项非常具有启发性的实验,该实验证明,AdNauseam(一个被 Chrome 商店禁止的扩展程序,它会自动点击页面上的所有广告以扰乱 Google 的个人资料算法)是有效的,并且“大 G”(Google)无法区分真实点击和虚假点击。
也许你需要读到这里才能相信,但我们不必遵从在线平台要求我们做的一切。数据投毒既不虚伪也不不道德。这是我们用户以任何可能的方式重新获得信息的一种方式。正如电子前沿基金会(Electronic Frontier Foundation)的计算机安全专家 Jon Callas 告诉我的那样,我们没有道德义务回答科技公司无权询问的问题。他们已经在收集关于我们每个人的数千个数据点——为什么还要帮助他们呢?
归根结底,数据投毒是有效还是勉强有效并不重要。我们知道它能起作用。在这样一个时代,公司并不把我们的最佳利益放在心上,而监管则因为科技公司花费数十亿美元游说民选官员而遥遥无期,我们用户只能靠自己。我们最好利用一切策略来保护自己免受持续的监控。
阅读更多 PopSci+ 故事。