《纽约时报》禁止生成式 AI 抓取其内容

像 ChatGPT 和 Bard 这样的生成式人工智能项目的魔力依赖于从开放互联网抓取的数据。但现在，这些模型的训练数据来源开始关闭。据《广告周刊》(Adweek) 上周的一篇报道称，《纽约时报》已禁止在其网站上的任何内容用于开发 OpenAI 的 GPT-4、Google 的 PaLM 2 和 Meta 的 Llama 2 等 AI 模型。

本月早些时候，《泰晤士报》更新了其服务条款，明确排除其内容被用于训练“机器学习或人工智能 (AI) 系统”。虽然这不会影响当前一代的大型语言模型 (LLM)，但如果科技公司遵守这一禁令，它将阻止《泰晤士报》的内容被用于开发未来的模型。

《泰晤士报》更新的服务条款禁止使用其任何内容——包括文本、图像、音频和视频片段、“外观和感觉”以及元数据——来开发任何类型的软件，包括 AI。此外，它们还明确禁止使用“机器人、爬虫、脚本、服务、软件或任何手动或自动设备、工具或流程”在未经事先书面同意的情况下抓取其内容。措辞非常宽泛，显然违反这些服务条款“可能会导致用户及协助用户的个人面临民事、刑事和/或行政处罚、罚款或制裁”。

鉴于《泰晤士报》的内容一直是当前一代 LLM 的主要训练数据来源，因此该报试图控制其数据未来如何使用是有道理的。根据《华盛顿邮报》今年早些时候的一项调查，《泰晤士报》是用于训练 LLM 的一个主要数据库的第四大内容来源。《华盛顿邮报》分析了 Google 的 C4 数据集，这是 Common Crawl 的一个修改版本，其中包含从超过 1500 万个网站抓取的内容。只有 Google Patents、Wikipedia 和 Scribd（一个电子书库）向该数据库贡献了更多内容。

尽管其在训练数据中占有重要地位，但本周，《Semafor》报道称《泰晤士报》“决定不加入”一个由包括《华尔街日报》在内的媒体公司组成的团体，试图与科技公司共同协商 AI 政策。显然，该报打算像美联社 (AP) 一样，自己做出安排。美联社上个月与 OpenAI 达成了一项为期两年的协议，允许 ChatGPT 的制造商使用美联社从 1985 年起的部分档案来训练未来的 AI 模型。

尽管目前有多起针对 OpenAI 和 Google 等 AI 制造商的诉讼，涉及其使用受版权保护的材料来训练当前 LLM，但“魔盒已经打开”。训练数据已被使用，而且由于模型本身由复杂的算法层组成，因此无法轻易从 ChatGPT、Bard 和其他可用的 LLM 中移除或忽略。相反，现在的斗争是关于未来模型的训练数据访问权——而且在许多情况下，是关于谁能获得报酬。

[相关：Zoom 可能会利用您的“内容”来训练其 AI]

今年早些时候，Reddit（它也是 AI 模型训练数据的一个大型且不知情的贡献者）关闭了第三方应用程序的 API 免费访问权限，试图向 AI 公司收取未来访问费用。此举引发了全站范围的抗议。埃隆·马斯克也因担心支付不足以使用其数据而切断了 OpenAI 对 Twitter（抱歉，X）的访问。在这两种情况下，问题在于 AI 制造商可以从社交网络的（实际上是用户生成内容）中获利。

鉴于这一切，值得注意的是，上周 OpenAI 悄悄发布了关于如何通过在 robots.txt 文件（大多数网站用于搜索引擎和其他网络爬虫的说明集）中添加一行代码来阻止其网络爬虫 GPTBot 的详细信息。虽然《泰晤士报》已经阻止了 Common Crawl 网络爬虫，但它尚未在其 robots.txt 文件中阻止 GPTBot。无论从哪个角度来看，过去 18 个月来强大 AI 模型突然爆发，世界仍在从中恢复。在如何使用数据来训练它们以及未来如何使用数据方面，仍有大量的法律纠纷尚未发生——在法律和政策到位之前，事情将非常不确定。