OpenAI辩称，在没有版权作品的情况下“不可能”训练ChatGPT

2023年是生成式AI兴起的一年，而2024年可能将是其制造商应对行业军备竞赛后遗症的一年。目前，OpenAI正积极反击最近的诉讼，这些诉讼声称其产品（包括ChatGPT）是盗用版权文本训练的。更重要的是，该公司正在提出一些大胆的法律主张，以证明其程序应该能够访问他人的作品。

[相关：生成式AI可能面临2024年最大的法律考验。]

在1月8日发布的一篇博客文章中，OpenAI指责《纽约时报》在其上个月底提起的重大版权诉讼中“没有讲完故事”。相反，OpenAI认为其抓取在线作品的行为属于“合理使用”的范畴。该公司还声称，目前与多家新闻机构（除《纽约时报》等外）合作进行数据集合作，并否认“复述”外部受版权保护的材料是他们正在努力消除的“罕见bug”。这归因于“记忆”问题，当内容在训练数据中多次出现时，这些问题可能会更常见，例如在“许多不同的公共网站”上都能找到。

“训练AI模型被允许作为合理使用这一原则得到了广泛的[个人和组织]的支持，”OpenAI代表在周一发布的文章中写道，并链接到最近提交给美国版权局的几位学者、初创公司和内容创作者的评论。

例如，在Duolingo提交的支持信中，这家语言学习软件公司写道，他们认为“由以受版权保护的材料训练的AI生成的输出不应自动被视为侵权——就像人类作者的作品仅仅因为该人类作者通过阅读受版权保护的作品而学会写作，就不应被视为侵权一样。”（周一，Duolingo向彭博社证实，由于越来越多地依赖AI，公司已解雇了约10%的合同工。）

12月27日，《纽约时报》因版权侵权起诉了OpenAI和微软（微软目前在其Bing等产品中使用OpenAI的GPT）。《纽约时报》提起的法院文件声称，OpenAI在未经许可或补偿的情况下，使用数百万篇该出版物的文章训练了其生成技术。据称，像ChatGPT这样的产品现在被用来替代其原始内容，损害了这家媒体公司的利益。《纽约时报》认为，越来越多的读者选择AI新闻摘要，意味着订阅原始来源的读者减少。

《纽约时报》的诉讼只是涉及版权侵权索赔的一系列类似诉讼中的最新一起，其中包括代表著名作家的一起，以及代表视觉艺术家的一起。

与此同时，OpenAI正在游说政府监管机构，以获得对其版权材料的访问权。据1月7日《电讯报》报道，OpenAI最近提交给英国上议院通讯与数字委员会的一封信中称，获取版权材料对公司的成功和产品相关性至关重要。

“由于今天的版权几乎涵盖了所有类型的人类表达——包括博客文章、照片、论坛帖子、零散的软件代码和政府文件——如果不使用受版权保护的材料，就无法训练当今领先的AI模型，”OpenAI在信中写道，同时还辩称，将训练数据限制在公共领域作品，“可能是一个有趣的实验，但无法提供满足当今公民需求的AI系统。”信中指出，这是OpenAI“使命的一部分，即确保人工智能造福全人类。”

与此同时，一些批评者迅速嘲笑了OpenAI关于其程序的存在需要使用他人版权作品的说法。在社交媒体平台Bluesky上，历史学家兼作家Kevin M. Kruse将OpenAI的策略比作在当铺出售非法获得的物品。

“粗略翻译：如果我们不偷窃，我们就无法赚大钱，所以请不要把偷窃定为犯罪！”AI专家Gary Marcus周一也在X上发帖表示。