大多數在線內容變成AI生成時會發生什麼?

AI生成大多數在線內容時的影響是什麼?

了解生成模型在训练它们所生成的数据时如何退化,以及如何应对

螺旋 — 来自Ludde Lorentz的照片,来源于Unsplash

介绍

生成人工智能(AI)的最新突破引入了可以产生高度逼真、复杂文本、图像和声音的公开可用AI模型,这些模型彻底改变了内容创作。

这些模型是通过从互联网上获取的大型数据集进行训练的。例如,在文本数据的情况下,ChatGPT等大型语言模型(LLM)通常是在网上找到的人类生成的文本上进行训练的。

生成模型在社会中广受声誉和快速接受,以至于越来越多的由AI生成的内容出现在互联网上,这是它们训练数据的主要来源。

我们可以看到这里出现了一个循环:生成模型不可避免地会被生成AI生成的合成数据进行训练,而不是人类生成的数据。这就引出了一个问题:如果发生这种情况,模型将如何表现?

生成模型和衰退

一旦LLM在互联网上贡献了大部分的语言,GPT-{n}会发生什么?

这是一个由研究团队提出的问题,该研究团队发表了论文《递归的诅咒:通过生成数据进行训练使模型遗忘》(I. Shumailov等,2023年)。

作者们尝试让模型从它们生成的数据中学习多次迭代。他们将它应用于高斯混合模型(GMM)、变分自动编码器(VAE)和大型语言模型(LLM)。对于这三种类型的模型,这会导致一种他们称之为“模型崩溃”的现象:

一种退化过程,即随着时间的推移,模型遗忘了真正的底层数据分布,即使在分布随时间发生变化的情况下也是如此。

模型崩溃表征了模型遗忘了真实分布的尾部(即不太可能、不太频繁但又重要的事件),并过度代表了分布的中心。随着这个过程的重复,模型收敛到…