OpenAI因未经同意使用作者的书籍训练ChatGPT而被作者起诉

OpenAI被作者起诉,原因是未经同意使用作者的书籍训练ChatGPT

两名作者对OpenAI提起了诉讼,称该公司使用了他们的作品来训练ChatGPT。问题在于,他们的书籍受到版权保护,作者声称OpenAI未经他们的同意使用了他们的作品来训练LLM。

作者保罗·特伦布莱和莫娜·阿沃德声称,ChatGPT能够生成他们的作品的“非常准确的摘要”根据该套件。他们继续声称,这些摘要只有在ChatGPT训练了他们的作品后才“可能”,他们认为这违反了版权法。

OpenAI和提起诉讼的作者的律师均未对CNBC的问题作出回应。像ChatGPT这样的LLM的训练方法是通过训练大量的文本数据来完成的,这些数据通常是通过爬取互联网获得的。当然,这包括维基百科和存档的图书等网站。

这起诉讼是在旧金山提起的,声称OpenAI的训练数据中“大部分”材料都基于受版权保护的材料。当然,这包括两位作者的书籍。但该案件存在一个重大问题,那就是要证明ChatGPT是如何以及从何处获得训练数据的。

因此,如果没有这些信息,可能很难证明损害的证据。到目前为止,起诉书引用了ChatGPT能够生成的摘要的陈述。它还指出,LLM会提供错误的信息。但两位作者表示,大部分摘要是准确的,他们的主张是“ChatGPT保留了训练数据集中特定作品的知识”。

起诉书还表示:“ChatGPT在任何时候都没有复制涉案作品的任何版权管理信息。”这个申诉与艺术家的情况非常相似。去年,有许多艺术家表示,Stable Diffusion、DALL-E 2和其他AI工具在未经他们同意的情况下训练了他们的艺术作品。

在诉讼继续进行之前,将需要一些时间。而且法院的判决可能会改变将来LLM的训练方式。

编辑注:你准备好了解关于生成式人工智能的最新信息了吗?加入我们的一日生成式人工智能峰会,深入探讨这项前沿技术,超越炒作。现在免费注册,解锁生成式人工智能的潜力。