《纽约时报》是最新一家与人工智能抓取者开战的媒体

此举加剧了 AI 制造商与版权所有者之间就版权侵权提起诉讼和遭遇抵制的混乱局面。
new york times building
《纽约时报》为生成式 AI 提供了宝贵的训练数据 Marco Lenti

像 ChatGPT 和 Bard 这样的生成式人工智能项目的魔力依赖于从开放互联网抓取的数据。但现在,这些模型的训练数据来源开始关闭。据《广告周刊》(Adweek) 上周的一篇报道称,《纽约时报》已禁止在其网站上的任何内容用于开发 OpenAI 的 GPT-4、Google 的 PaLM 2 和 Meta 的 Llama 2 等 AI 模型。

本月早些时候,《泰晤士报》更新了其服务条款,明确排除其内容被用于训练“机器学习或人工智能 (AI) 系统”。虽然这不会影响当前一代的大型语言模型 (LLM),但如果科技公司遵守这一禁令,它将阻止《泰晤士报》的内容被用于开发未来的模型。

《泰晤士报》更新的服务条款禁止使用其任何内容——包括文本、图像、音频和视频片段、“外观和感觉”以及元数据——来开发任何类型的软件,包括 AI。此外,它们还明确禁止使用“机器人、爬虫、脚本、服务、软件或任何手动或自动设备、工具或流程”在未经事先书面同意的情况下抓取其内容。措辞非常宽泛,显然违反这些服务条款“可能会导致用户及协助用户的个人面临民事、刑事和/或行政处罚、罚款或制裁”。

鉴于《泰晤士报》的内容一直是当前一代 LLM 的主要训练数据来源,因此该报试图控制其数据未来如何使用是有道理的。根据《华盛顿邮报》今年早些时候的一项调查,《泰晤士报》是用于训练 LLM 的一个主要数据库的第四大内容来源。《华盛顿邮报》分析了 Google 的 C4 数据集,这是 Common Crawl 的一个修改版本,其中包含从超过 1500 万个网站抓取的内容。只有 Google Patents、Wikipedia 和 Scribd(一个电子书库)向该数据库贡献了更多内容。

尽管其在训练数据中占有重要地位,但本周,《Semafor》报道称《泰晤士报》“决定不加入”一个由包括《华尔街日报》在内的媒体公司组成的团体,试图与科技公司共同协商 AI 政策。显然,该报打算像美联社 (AP) 一样,自己做出安排。美联社上个月与 OpenAI 达成了一项为期两年的协议,允许 ChatGPT 的制造商使用美联社从 1985 年起的部分档案来训练未来的 AI 模型。

尽管目前有多起针对 OpenAI 和 Google 等 AI 制造商的诉讼,涉及其使用受版权保护的材料来训练当前 LLM,但“魔盒已经打开”。训练数据已被使用,而且由于模型本身由复杂的算法层组成,因此无法轻易从 ChatGPT、Bard 和其他可用的 LLM 中移除或忽略。相反,现在的斗争是关于未来模型的训练数据访问权——而且在许多情况下,是关于谁能获得报酬。

[相关:Zoom 可能会利用您的“内容”来训练其 AI]

今年早些时候,Reddit(它也是 AI 模型训练数据的一个大型且不知情的贡献者)关闭了第三方应用程序的 API 免费访问权限,试图向 AI 公司收取未来访问费用。此举引发了全站范围的抗议。埃隆·马斯克也因担心支付不足以使用其数据而切断了 OpenAI 对 Twitter(抱歉,X)的访问。在这两种情况下,问题在于 AI 制造商可以从社交网络的(实际上是用户生成内容)中获利。

鉴于这一切,值得注意的是,上周 OpenAI 悄悄发布了关于如何通过在 robots.txt 文件(大多数网站用于搜索引擎和其他网络爬虫的说明集)中添加一行代码来阻止其网络爬虫 GPTBot 的详细信息。虽然《泰晤士报》已经阻止了 Common Crawl 网络爬虫,但它尚未在其 robots.txt 文件中阻止 GPTBot。无论从哪个角度来看,过去 18 个月来强大 AI 模型突然爆发,世界仍在从中恢复。在如何使用数据来训练它们以及未来如何使用数据方面,仍有大量的法律纠纷尚未发生——在法律和政策到位之前,事情将非常不确定。

 

更多优惠、评测和购买指南

 
Harry Guinness Avatar

Harry Guinness

撰稿人

Harry Guinness 是一位爱尔兰自由作家兼摄影师。他一年中的大部分时间在爱尔兰和法国阿尔卑斯山之间度过。Harry 的作品发表在《纽约时报》、《流行科学》、OneZero、Human Parts、Lifehacker 等数十家媒体上。他撰写关于科技、文化、科学、效率以及它们碰撞的文章。


© .