OpenAI的网络爬虫和FTC的失误

OpenAI网络爬虫和FTC失误

OpenAI发布默认选择加入的网络爬虫以抓取互联网内容，而FTC则进行着一项鲜为人知的消费者欺骗调查

由Giammarco Boscaro在Unsplash上的照片 — 照片由Giammarco Boscaro提供(Unsplash)

随着人工智能的广泛应用，数据专业人员越来越需要考虑数据来源。尽管最初一批高性能语言模型使用了常见但有争议的数据抓取策略进行训练，但这种可疑的做法近来备受关注，引发了诉讼和有关数据所有权的问题。本文详细介绍了这个问题背后的法律概念以及监管机构如何应对这个问题（剧透：并不是很有效）。

Towards Data Science编辑的注意事项：尽管我们允许独立作者按照我们的规则和指南发布文章，但我们并不为每个作者的贡献背书。在不寻求专业建议的情况下，您不应依赖于作者的作品。详见我们的读者条款。

上周，Open AI（ChatGPT的制造商）正式宣布了他们的网络爬虫，这是一款从互联网上的所有网站上抓取内容的软件，然后用于AI模型训练。爬虫的存在并不令人意外，今天已经有几个合法的网络爬虫存在，包括谷歌的爬虫，它可以索引整个互联网。然而，这是OpenAI首次明确宣布其存在，并提供了一个机制，让网站选择不被抓取。

<p请注意，该爬虫是默认选择加入的，也就是说，您需要在您的网站上明确更改一段代码，要求爬虫不要抓取您的数据。选择加入/退出的默认设置是固定的，并且通常决定了大多数人的行为方式，因为大多数人不会花费精力去更改默认设置。这也是为什么苹果的iOS14隐私更改对数字广告行业产生了重大影响的原因。

那么，为什么要提供选择退出的选项呢？这很可能是OpenAI采取的一种预防性措施，以应对最近针对该公司的侵犯内容所有者版权的诉讼（如果您想深入了解数据抓取，可以阅读更详细的文章）。ChatGPT的竞争对手Google Bard面临类似的挑战，但谷歌尚未宣布相应的解决方案——他们确实发布了一项请求评论，以了解如何升级robots.txt以解决这个问题（写得非常巧妙）。

在本文中，我们将深入探讨以下内容：

OpenAI的网络爬虫对内容所有者的影响
FTC对OpenAI的当前调查
我们所处的法律环境
为什么FTC追究OpenAI是（又一次）错误的做法

OpenAI的网络爬虫对内容所有者的影响

尽管该公告为广告商提供了一个选项，可以阻止OpenAI的网络爬虫抓取他们的数据，但有几个问题并不理想：

它是默认选择加入的，这意味着OpenAI可以继续抓取，直到网站明确告知他们不要这样做
在没有明确法律裁决的情况下，关于内容所有者的数据在未经同意的情况下被用于模型训练的权利问题（这实际上是强制进行默认选择加入的人的情况）

如今，有两个法律构造决定了语言模型是否可以在没有同意的情况下获取所有这些数据，它们是版权和合理使用。

版权（在《美国版权法》第102节中）为特定类型的内容提供保护，但也有例外：

根据本标题，版权保护适用于以任何有形表达的原创作品，无论是现在已知还是以后开发的，可以通过它们直接或者借助机器或设备进行感知、复制或以其他方式传播。作品包括以下类别：（1）文学作品；（2）音乐作品，包括任何伴奏歌词；（3）戏剧作品，包括任何伴奏音乐；（4）哑剧和编舞作品；（5）图画、图形和雕塑作品；（6）电影和其他视听作品；（7）音频录制；以及（8）建筑作品。

（b）在任何情况下，对于原创作品的版权保护不会延伸到任何思想、程序、过程、系统、操作方法、概念、原则或发现，无论以何种形式在作品中被描述、解释、说明、插图或体现。

例如，版权保护大部分原创作品（例如，如果你写了一篇关于某个主题的原创博客文章或书籍），但不保护广泛的观念（例如，你不能声称你是第一个写关于人工智能如何影响数据权利的人，因此这个观念属于你）。

版权保护的另一个例外是公平使用（《美国版权法》第107条）：

对于如批评、评论、新闻报道、教育（包括用于课堂使用的多份副本）、学术研究、或研究等目的，对受版权保护的作品进行复制、制作副本或以该章节规定的其他方式使用，不构成侵权行为。

在确定在任何特定情况下对作品的使用是否为公平使用时，应考虑以下因素：（1）使用的目的和性质，包括是否具有商业性质或用于非营利教育目的；（2）受版权保护的作品的性质；（3）使用的部分相对于作品整体的数量和重要性；以及（4）使用对受版权保护作品的潜在市场或价值产生的影响。

例如，如果你引用了一篇研究论文的内容并对其进行批评，那是可以的，你没有侵犯内容所有者的版权。当我在这个页面上链接另一篇文章并添加引用自那篇文章的文字时，情况是相同的。

这两个概念的创建目的是保护内容所有者的权利，同时允许教育、研究和批评等信息的自由流动。

我不是法律专家，但根据我对上述语言的研究和理解，AI模型进行训练内容的爬取会变得模糊不清的地方是：

AI公司通常会从内容所有者的网站上爬取全文（这受版权保护），训练模型学习“观念”、“概念”或“原则”（这不受版权保护），然后模型最终会生成不同的文本。在这种情况下，内容所有者是否享有版权保护？
由于训练后的语言模型最终用于商业目的（例如，ChatGPT Plus是一款付费产品），这是否违反了内容所有者的版权（因为公平使用例外不再适用）？

目前还没有关于这个问题的法院裁决，所以很难预测结果。我作为一个非法律专家的个人看法是，第二个问题可能更容易解决：OpenAI爬取数据并用其创建了一个商业产品，因此他们不符合公平使用例外。我想第一个问题（模型是基于一个“观念”还是原创文本进行训练）可能是无法确定的。需要注意的是，要使内容所有者获胜，这两个问题都必须对内容所有者有利，即只有在上述两个例外（“观念”例外或公平使用例外）都不适用于OpenAI时，内容所有者才能获胜。

我提出这个细微之处是因为在AI风险的光谱中（非详尽），从内容所有者的权利到诈骗放大，再到工作自动化，再到AGI/人类毁灭，最紧迫的近期问题是内容所有者的权利，这可以从诉讼激增和对内容平台的影响（例如StackOverflow的故事）中看出。

虽然像FTC这样的监管机构可以考虑长期问题并提出假设性/创造性的方法来解决这些风险，但他们真正的短期潜力在于能够应对在5-10年内对我们产生影响的风险，比如版权侵权。这就带我们来谈谈FTC对此所做的努力。

FTC对OpenAI的当前调查

7月中旬，FTC宣布正在对OpenAI进行调查。有趣（也令人沮丧）的是FTC对他们进行调查的原因。ChatGPT的制造商正在接受调查，以评估该公司是否违反了消费者保护法，将个人声誉和数据置于风险之中。听起来不合理吗？你并不孤单。让我们进一步了解这是如何发生的。

FTC在四月份表达了对AI监管的最明确立场：“法律上没有AI豁免，FTC将积极执行法律，以打击不公平或欺骗性行为或不公平的竞争方法”。然后出现了一些与诽谤有关的问题：广播主Mark Walters对OpenAI提起诉讼，因为ChatGPT指控他欺诈一个非营利组织，一位法学教授被ChatGPT错误指控性骚扰。

这两种情况对涉及的人们都很糟糕，我对此深感同情。然而，众所周知，语言模型（如GPT）和建立在其基础上的产品（如ChatGPT）会“产生幻觉”，并且经常是错误的。FTC调查的前提之一是——ChatGPT会产生幻觉，从而给声誉带来伤害。

在一次激烈的国会听证会上，一位代表（理所当然地）问FTC为什么要追究诽谤和诽谤问题，这些问题通常由州法律处理。FTC主席Lina Khan给出了一个复杂的论点：

Khan回应说，诽谤和诽谤并不是FTC执法的重点，但在AI训练中滥用他人私人信息可能是FTC法案下的一种欺诈或欺骗形式。“我们关注的是，人们是否受到了实质性的伤害？伤害可以表现为各种各样的事情，”Khan说。

为了总结完整的论点，FTC认为ChatGPT的幻觉会产生不正确的信息（包括诽谤），这可能是消费者欺骗的一种形式。此外，基于OpenAI迅速修复的一个错误，可能会使用/泄露了敏感用户私人信息。

作为调查的一部分，FTC要求OpenAI提供一长串的信息，包括他们的模型训练细节、数据来源、产品定位以及由于风险识别而暂停发布模型的情况。

问题是——对于FTC来说，是否是最佳做法去监管这可能是最大的人工智能公司之一，尤其是考虑到当前的法律环境呢？

我们目前所处的法律环境

要批评FTC与OpenAI的策略，了解我们目前所处的法律环境是有用的。我们不会详细展开，但以反垄断法的历史为例，简要说明一下：

在20世纪，大型企业（“托拉斯”）出现，并且公共和私人权力的平衡转移到这些公司
作为回应，1890年通过了谢尔曼法案，以对私人权力进行制约并保护竞争；该法律被用于诉讼和打击从事反竞争行为（垄断定价、卡特尔交易、分销垄断）的“托拉斯”
在20世纪60年代左右，法官因根据法律精神而不是法律字面进行判断而受到很多批评；例如，解释谢尔曼法以确定一组公司是否“不合理地限制贸易”涉及主观性，法官被指责从事司法活动主义
为了引入客观性，芝加哥学派开创了以“消费者福利”为标准的理念——“法院应仅以消费者福利为指导”（例如，垄断通过明目张胆地提高价格是错误的，但对于其他活动，监管机构需要证明对消费者造成了伤害）
这个标准至今仍然存在，并且是FTC和DOJ在打击大型科技公司时面临困难的原因之一——例如，FTC不能提出谷歌正在提高价格的论点，因为他们的大多数产品都是免费的，即使谷歌从事其他反竞争行为

从中可以得出的结论是——我们今天仍然在一个非常注重“法律字面”而不是“法律精神”的法律环境中运作。这个环境，再加上当前美国最高法院的构成，导致对法律的解释相当保守。

对于FTC来说，这意味着接受这一现实，并找到一种方法来赢得案件。FTC和DOJ的运作模式（理所当然）是追击少数几个大案并进行严厉执法，以便在违反法律之前让长尾公司三思。为了实现这一点，FTC需要在一些问题上取得重大胜利，并且需要在当前法律环境的限制下拥有获胜策略。

为什么FTC追击OpenAI的做法是（又一次）错误

FTC在与大型科技公司的斗争中一直处于败北的状态，我认为这些失败都可以归咎于一种失败的“我们憎恨一切大型科技公司”的策略，采取的是针对这些公司的粗暴而非精确的策略。

例如，FTC采取了一种蛮力的方式阻止价值690亿美元的微软-动视收购，并且失败了（我认为相当惨败）。FTC认为微软收购动视将导致游戏市场的竞争消失。法官在一项相当直截了当的裁决中驳回了FTC的所有论点，以下是法官的一则评论：

没有内部文件、电子邮件或聊天记录与微软公开表示不会将《使命召唤》独占于Xbox游戏机相矛盾。尽管FTC行政诉讼中进行了广泛的调查，包括提供近100万份文件和30次证词，但FTC并未找到任何文件与微软公开承诺将《使命召唤》在PlayStation（和任天堂Switch）上发布相矛盾。

另一个强行案件是FTC试图阻止Meta收购VR公司Within，他们失败了。他们为什么要这样做？他们想测试一下在某个市场变得庞大之前是否有阻止收购的动机，并且鉴于当前的法律环境，这并不令人意外地被驳回。

FTC对OpenAI的调查问题类似：

他们正在追求（在我看来）一个相当微不足道的问题和已知的语言模型局限-幻觉；他们应该关注在未来5-10年的时间里真正重要的AI问题，比如版权
尽管在当前的法律环境中有多种“有创意”的法律方法被驳回，他们仍然尝试另一种创造性的论证：幻觉→诽谤→消费者欺骗

对其行动的慷慨解释是，他们想为他们的“AI不免于现有法律”立场设定先例，并且这次的野鸭追逐会给他们提供大量来自OpenAI的自我报告数据（FTC提出了20页的要求）。

然而，鉴于他们反复追求强力手段/任何大型科技公司都无竞争力的方法，并将这些方法与在法庭上反复被驳回的创造性论证相结合，我认为FTC在这个案件中没有赢得怀疑的好处。

结论

我绝对认为OpenAI应该受到监管。不是因为他们的LLMs产生幻觉（当然会产生），而是因为他们明目张胆地未经许可使用创作者的内容。这并不会改变过去，而是为了确保创作者在未来能够拥有健康的内容所有权，这需要观察法院是否认为现状构成版权侵权。

如果FTC继续采取锤子而非手术刀的方法，这种情况将不会发生。针对大型科技公司采取手术刀方法取得成功的先例是明确的，其中最引人注目的是英国竞争和市场管理局。他们针对谷歌取得的两个重大案例都专注于具体的反竞争机制：阻止谷歌在AdTech堆栈中给予自家产品优惠待遇，并允许其他支付提供商进行应用内支付。

如果FTC继续沿着当前的道路前进，他们的连败将鼓励科技公司继续为所欲为，因为他们知道他们可以在法庭上胜出。是时候让FTC反思其失败，从其他监管机构的成功中吸取教训，并进行纠正了。

🚀如果你喜欢这篇文章，请考虑订阅我的每周简报。每周，我会以10分钟的阅读时间发布一篇关于当前技术主题/产品战略的深入分析。致以最好的问候，Viggy。

Unpacked | Viggy Balagopalakrishnan | Substack

深入分析当前技术和商业主题，帮助您保持领先。每周发送到您的收件箱…

thisisunpacked.substack.com

Artificial intelligence,Business,ChatGPT,Copyright,Deep Dives

OpenAI的网络爬虫和FTC的失误

OpenAI网络爬虫和FTC失误

OpenAI发布默认选择加入的网络爬虫以抓取互联网内容，而FTC则进行着一项鲜为人知的消费者欺骗调查

OpenAI的网络爬虫对内容所有者的影响

FTC对OpenAI的当前调查

我们目前所处的法律环境

为什么FTC追击OpenAI的做法是（又一次）错误

结论

Unpacked | Viggy Balagopalakrishnan | Substack

深入分析当前技术和商业主题，帮助您保持领先。每周发送到您的收件箱…

在您的Gen AI项目中使用的十个技巧和窍门

“Meta推出‘SeamlessM4T’ AI模型，能够实时翻译多达100种语言”

科学家通过读取听众的脑信号重新创作了Pink Fl...

加州大学圣地亚哥分校计算机科学家解决每年废...

研究人员帮助机器人自学打开洗碗机和门

使用Llama 2进行主题建模

“2023年将应用Prompt工程的5种工作”

加入初创公司之前，数据工程师应该问的前五个问题

人工智能