OpenAI想吞下互联网的一大块。谁会阻止他们？

这家人工智能巨头计划购买 WordPress 和 Tumblr 的数据来训练 ChatGPT。会出什么问题？

作者：Andrew Paul

发布时间 2024 年 2 月 29 日上午 10:43 EST

Vacuum moving towards two blocks with Wordpress and Tumblr logos — WordPress 支持你最可能看到的互联网的大约 43%。DepositPhotos, Deposit Photos

你可能不知道 Automattic，但他们知道你。

作为 WordPress 的母公司，其内容管理系统托管了互联网上 1000 万个最受欢迎网站的约 43%。与此同时，它还拥有 Tumblr 的一系列大型平台，其中包含大量令人尴尬的个人帖子。这一切都是说，通过那些无数的服务条款和第三方同意书，Automattic 可能会访问互联网内容和数据的很大一部分。

[相关：OpenAI 的 Sora 将我们推向了人工智能深渊又一大步。]

据本周早些时候404 Media报道，Automattic 正在与OpenAI 和Midjourney 敲定交易，以便为他们持续进行的人工智能训练提供海量数据。大多数人会在聊天机器人中看到结果，因为科技公司需要数百万个网站中的文本来训练大型语言模型对话能力。但这也可以采取利用你的自拍来训练面部识别算法，或者通过分析你在网上上传的原创艺术作品来改进图像和视频生成能力的形式。然而，很难确切知道使用哪些数据以及使用多少数据，因为像 Midjourney 和 OpenAI 这样的公司维护着黑箱技术产品——正如这次即将发生的商业交易一样。

那么，如果你想退出 ChatGPT 吞噬你的忏悔式微博条目或日常工作流程呢？祝你好运。

当被问及评论时，Automattic 的一位发言人将PopSci 指向了其周二下午在404 Media 报道后发布的“保护用户选择”页面。该页面试图提供一系列保证。现在有一个隐私设置可以“阻止”WordPress.com 和 Tumblr 上的网站被搜索引擎索引，并且 Automattic 承诺“仅共享在这些平台上托管的公开内容”。其他退出设置还将“阻止”人工智能公司抓取数据，Automattic 计划定期向其合作伙伴更新哪些用户“新近退出”，以便他们的内容可以从未来的训练和过去的源数据集中删除。

然而，这一切都有一个小小的警告

“目前，没有任何法律要求爬虫遵循这些偏好，”Automattic 表示。

版权和隐私的狂野西部

“从我看到的情况来看，我不太确定有什么东西可以与人工智能共享，”坦普尔大学媒体与传播副教授 Erin Coyle 说。“我们现在有一个令人困惑的格局，就人们拥有什么数据隐私权而言。”

对 Coyle 而言，对大量在线用户信息的模糊访问“绝对说明”了美国缺乏协调一致的隐私立法。阻碍进展的最大挑战之一是，法律在很大程度上是反应性的，而不是预防性的监管。

“总体而言，没有数据隐私。”

“立法者很难赶上技术的发展，尤其是在技术领域，”她补充说。“虽然有人认为他们应该非常小心谨慎……在技术发展如此迅速的时代，这也非常具有挑战性。”

随着 OpenAI、Google 和 Meta 等公司继续它们的人工智能军备竞赛，正是每天的普通人提供了互联网内容（公开和私密）的大部分——他们却被夹在中间。点击“是”同意几乎每个应用程序、网站或社交媒体平台都附带的宣言式服务条款，通常是访问这些服务的唯一方式。

“一切都关乎服务条款，无论我们讨论的是哪个网站，”明尼苏达大学新闻学教授 Christopher Terry 说，他专注于媒体所有权、互联网政策和政治广告的监管和法律分析。

Terry 在接受PopSci 采访时解释说，你在线上签署的几乎所有服务条款协议都与运行网站的人签订了法律合同。深入研究法律条文，你就会“看到你同意给予他们，并允许他们使用你生成的数据……你允许他们将这些数据货币化。”

当然，上一次你真正阅读任何这些烦人的弹窗是什么时候？

“总体而言，没有数据隐私，”Terry 说。“就我们几十年来过的数字生活而言，人们一直在分享大量信息……而没有真正知道这些信息会去哪里，”Coyle 继续说。“我们很多人签署了这些协议，却不知道人工智能会发展到今天。”

而这一切，只需要一个简单的服务条款更新通知，就可以将你的数据让渡用于潜在的人工智能训练——另一个弹窗，很可能你没有阅读就点击了“同意”。

要么退出，要么接受

如果 Automattic 完成了与 OpenAI、Midjourney 或任何其他人工智能公司的交易，其中一些相同的更新提醒很可能会在数百万个电子邮件收件箱和网站上弹出——而大多数人将本能地将其忽略。但据一些研究人员称，即使在这种情况下提供自愿退出选项也不够。

“绝大多数用户很可能不知道这是一个选项，/或不知道与 OpenAI/Midjourney 的合作正在发生，”波士顿大学研究技术政策和传播学的研究员 Alexis Shore 写信给PopSci。“从这个意义上说，当默认设置允许人工智能抓取时，给用户这个退出选项是毫无意义的。”

“他们现在正在全力以赴，趁他们还能的时候。”

Shore 和 Coyle 等专家认为，一种潜在的解决方案是改变方法——将自愿退出改为选择加入，这在欧盟的《通用数据保护条例》(GDPR) 的推动下，在互联网用户中越来越普遍。不幸的是，美国立法者在任何接近这一监督水平的方面都尚未取得多大进展。

下一个选择是，如果你有足够的证据来证明你的案件，那就是法律诉讼。尽管针对OpenAI 等公司的版权侵权诉讼仍在不断增加，但在其法律先例得以确立之前，还需要数年时间。到那时，谁也猜不到人工智能行业会对数字景观和你的隐私造成什么影响。Terry 将这一时刻比作 19 世纪的淘金热。

“他们现在正在全力以赴，趁他们还能的时候，”他说。“你现在要去那里圈地，你把所有你能投入的东西都灌输到那个机器里，这样以后，当它成为一个（法律）问题时，就已经完成了。”

在写作时，OpenAI 和 Midjourney 都未回复多次置评请求。

© .