您不仅仅是一个数据点。《退出》旨在帮助您夺回隐私权。
人工智能的最新浪潮 推动了许多人重新思考生活的关键方面。例如,数字艺术家现在需要保护他们的作品免受图像生成网站的侵害,而教师则需要应对一些学生可能将写论文的任务外包给 ChatGPT。
但人工智能的泛滥也带来了重要的隐私风险,每个人都应该了解——即使你从未打算去了解这项技术会把你变成什么样子的人鱼。
缺乏透明度
“我们常常不清楚谁在使用我们的个人信息、如何使用、以及出于何种目的,”布鲁金斯学会(美国华盛顿特区一个从事研究以解决广泛的国内和全球问题的非营利组织)人工智能和新兴技术倡议政策总监Jessica Brandt 说。
广义而言,机器学习——人工智能系统变得更准确的过程——需要大量数据。系统拥有的数据越多,就越准确。像 ChatGPT 和谷歌 Bard 这样的生成式人工智能平台,以及图像生成器 Dall-E,通过一种称为“爬取”的技术获取部分训练数据:它们会扫描互联网来收集有用的公开信息。
但有时,由于人为错误或疏忽,本不应公开的私人数据,例如敏感的公司文件、图像,甚至登录列表,可能会出现在互联网的可访问部分,任何人都可以通过谷歌搜索运算符找到它们。一旦这些信息被爬取并添加到人工智能的训练数据集中,几乎没有人能够将其删除。
“人们应该能够自由分享照片,而不必担心它最终会喂养一个生成式人工智能工具,或者更糟糕的是——他们的图像可能被用来创建深度伪造,”印度科技公司 Wipro 的全球首席隐私官、弗吉尼亚理工大学 Pamplin 商学院的访问网络安全和隐私高管研究员Ivana Bartoletti 说。“在互联网上爬取个人数据,破坏了人们对其数据的控制权。”
数据爬取只是人工智能系统训练数据的潜在问题来源之一。国际隐私专业人士协会(International Association of Privacy Professionals)的高级隐私工程研究员Katharina Koerner 表示,另一个来源是个人数据的二次使用。这种情况发生在当你出于特定目的自愿提供一些信息,但这些信息最终被用于你未曾同意的另一个目的时。企业多年来一直在收集客户信息,包括电子邮件地址、送货地址以及他们喜欢的产品类型,但在过去,他们无法对这些数据做太多事情。如今,复杂的算法和人工智能平台为处理这些信息提供了一条便捷的途径,以便它们可以更多地了解人们的行为模式。这可能通过仅向你推送你真正关心的广告和信息来让你受益,但它也可能根据你的邮政编码限制产品供应并提高价格。Koerner 说,鉴于一些公司已经拥有大量由其客户提供的数据,这对于企业来说具有很大的吸引力。
“人工智能可以轻松地从可用数据中提取有价值的模式,以支持未来的决策,因此,当数据收集目的与此不同时,企业非常倾向于使用个人数据进行机器学习,”她解释道。
开发者很难从大型训练数据集中选择性地删除你的个人信息,这也无济于事。当然,删除具体信息,如你的出生日期或社会安全号码(请不要向生成式人工智能平台提供个人详细信息)可能很容易。但 Bartoletti 说,要实现符合欧洲通用数据保护条例(GDPR)的全删除请求,是另一回事,也许是最具挑战性的问题。
[相关:如何阻止学校设备共享您家人的数据]
由于传统 IT 系统复杂的微服务结构(每个部分都作为独立单元工作),选择性内容删除即使在传统 IT 系统中也很困难。但 Koerner 说,在人工智能领域,这甚至更难,如果不是不可能的话。
这是因为这不仅仅是按“Ctrl + F”删除带有某人姓名的所有数据的问题——删除一个人的数据需要从头开始重新训练整个模型的昂贵过程,她解释道。
选择退出将越来越难
一个信息丰富的 AI 系统可以提供大量的分析,包括帮助用户理解人们行为的模式识别。但这并非仅仅归功于该技术的强大功能——也因为人们倾向于以可预测的方式行事。人类本性的这一特定方面使得 AI 系统无需了解太多关于你的具体信息就能正常工作。因为当你了解了和你一样的人,了解你个人又有什么意义呢?
“我们现在的情况是,只需要最少的信息——关于一个人,大约三到五条相关数据,这很容易获取——他们就会立即被吸入预测系统,”专注于 AI 审计和风险的华盛顿特区律师事务所 BNH.AI 的合伙人 Brenda Leong 说。简而言之:如今,很难,甚至不可能,不被这个系统所涉及。
这让我们几乎没有自由,即使是那些多年来一直努力保护自己隐私的人,也会让 AI 模型为他们做出决定和推荐。这可能会让他们感觉一切努力都付诸东流。
“即使它是以一种对我有利的方式进行的,比如为我提供符合我收入水平的贷款,或者我真正感兴趣的机会,它也是在没有我真正能够以任何方式控制的情况下这样做的,”Leong 继续说道。
利用大数据将整个群体进行归类,也抹杀了细微差别——忽略了我们都知道生活中充满的异常和例外。问题在于细节,也在于将普遍结论应用于特殊情况,而这可能导致非常糟糕的后果。
数据的武器化
另一个关键挑战是如何在算法决策中植入公平性——尤其是当 AI 模型的结论可能基于有缺陷、过时或不完整的数据时。现在众所周知,AI 系统会延续其人类创造者的偏见,有时会给整个社区带来可怕的后果。
随着越来越多的公司依靠算法来帮助招聘或确定驾驶员的风险状况,我们的数据被用来损害我们自身利益的可能性就越大。你有一天可能会受到这些系统自动做出的决定、推荐或预测的伤害,而几乎没有补救措施。
[相关:自主武器可能在战争中犯下严重错误]
当这些预测或标签在无法区分真假而视为事实的算法眼中成为事实时,这也是一个问题。对于现代 AI 来说,一切都是数据,无论是个人数据、公开数据、事实数据还是完全虚构的数据。
集成越多,安全越少
就像你的互联网存在强度取决于你最弱的密码一样,大型 AI 工具与其他平台的集成,为攻击者提供了更多可以利用的入口来访问私人数据。如果其中一些在安全方面不达标,也不足为奇。
这还没有考虑到所有那些在不知情的情况下收集你数据的公司和政府机构。想想你家附近无处不在的监控摄像头,在音乐会场所跟踪你的面部识别软件,在公园里拿着 GoPro 跑来跑去的孩子,甚至试图在 TikTok 上走红的人。
处理你数据的人和平台越多,出错的可能性就越大。更多的出错空间意味着你的信息更有可能泄露到互联网上,然后很容易被抓取到 AI 模型的训练数据集中。如上所述,这极其难以撤销。
你能做什么
坏消息是,目前你对此无能为力——无论是关于包含你信息的 AI 训练数据集可能带来的安全威胁,还是关于可能阻碍你获得梦想工作的预测系统。目前,我们最好的选择是要求进行监管。
欧盟已经开始行动,通过了《人工智能法案》的初稿,该法案将根据可接受的风险水平来规范公司和政府如何使用这项技术。与此同时,美国总统乔·拜登已通过行政命令为开发道德和公平的人工智能技术提供资金,但国会尚未通过任何保护美国公民在人工智能平台方面隐私的法律。参议院一直在举行听证会以了解这项技术,但尚未制定出联邦法案。
随着政府的努力,你可以,也应该,倡导隐私监管,将其纳入人工智能平台,并保护用户免受数据滥用。与你周围的人就人工智能的发展进行有意义的对话,确保你了解你的代表在联邦隐私监管方面的立场,并投票选出那些真正关心你利益的人。
阅读更多 PopSci+ 文章。