自人工智能迅速普及以来,许多艺术家、创作者和观察家一直批评 人工智能生成内容 具有“衍生的、道德模糊的”以及“可能有害”的特点。考虑到尤其是文本生成大型语言模型(LLM)是通过现有材料训练的,这种反弹进入下一阶段只是时间问题。
最近,在加利福尼亚州提起了三起集体诉讼,日期相隔仅几天——这次代表了包括喜剧演员萨拉·西尔弗曼在内的作家。这些诉讼——Silverman, Golden, and Kadrey v Meta、Silverman, Golden, and Kadrey v OpenAI 和 Tremblay and Caden v OpenAI——指控 OpenAI 和 Meta 通过其 LLM 系统 ChatGPT 和 LLaMA 侵犯了版权。
[相关:一名电台主持人起诉 ChatGPT 开发者,称其存在诽谤性指控。]
据《The Verge》等媒体周末报道,Joseph Saveri Law Firm 的律师声称,ChatGPT 和 LLaMA 的底层技术生成的内容“将成千上万本书籍作者——以及许多其他作者——的版权作品重新混编,但未获得许可、报酬或署名”。
根据提交给美国地方法院的一份针对 OpenAI 的文件,原告律师从 GPT-3.5 和 GPT-4 的训练数据集中提取了多个例子,其中包含从 Library Genesis 和 Z-Library 等“公然非法”的在线存储库中抓取的受版权保护的文本。这些网站通常被称为“影子图书馆”,它们以电子书文件的形式提供数百万本书籍、学术文章和其他文本供用户使用,通常未经作者或出版商的同意。在 Saveri Law Firm 提交的针对 Meta 的文件中,一份文件记录显示 LLaMA 的部分数据集来自一个名为 Bibliotek 的类似影子图书馆。
原告律师在他们的诉讼公告中说:“自 2023 年 3 月 OpenAI 的 ChatGPT 系统发布以来,我们一直收到来自作家、作者和出版商的反馈,他们担心其生成与受版权保护的文本材料(包括数千本书籍)非常相似的文本的惊人能力。”“‘生成式人工智能’只是被重新包装并脱离其创作者的人类智能。”
[相关:AI 暂停信函存在一个明显的问题。]
像 OpenAI 和 Meta 这样的公司正面临着对其训练其头条新闻 AI 系统的来源材料以及其产品倾向于不准确和可能危险的结果的越来越多的法律挑战。上个月,一名电台主持人起诉 OpenAI,此前 ChatGPT 的结果错误地声称他曾被指控贪污和欺诈。
尽管该公司于 2015 年由 埃隆·马斯克 和 萨姆·阿尔特曼 以非营利组织的形式成立,但 OpenAI 在前者离开公司后,于 2019 年成立了一个营利性子公司。今年早些时候,微软宣布向 OpenAI 进行数十亿美元的投资,在其推出集成 ChatGPT 的 Bing 搜索引擎之前。
《The Verge》指出,每项诉讼都包含六项“各种类型的版权侵权、疏忽、不当得利和不正当竞争”的指控。两项诉讼的其他原告包括畅销书作家保罗·特伦布莱(Paul Tremblay,《The Cabin at the End of the World》、《A Head Full of Ghosts》)、莫娜·阿瓦德(Mona Awad,《Bunny》、《All’s Well》)、克里斯托弗·戈尔登(Christopher Golden,《Ararat》)和理查德·卡德里(Richard Kadrey,《Sandman Slim》)。诉讼的原告要求返还利润、法定赔偿金以及其他处罚。