AI熵:AI生成内容的恶性循环
AI熵:恶性循环的生成内容
理解和减轻模型崩溃
介绍
想象一下,如果你能够克隆自己,同时在多个地方活动,毫不费力地处理所有的责任。还记得1996年的科幻喜剧电影《多重身份》吗?道格·金尼(由迈克尔·基顿扮演)克隆自己来管理工作和个人生活。然而,随着越来越多的道格克隆出现,每个后续的克隆体都表现出夸张的特点和较低的智能,与之前的版本相比。这些克隆体最初是为了减少混乱,但最终造成了更多的困惑和熵,给金尼的生活带来了更多的混乱。
在人工智能(AI)世界中,当大型语言模型(LLM)训练数据是由它们先前版本生成时,会出现类似的现象。就像《多重身份》中的克隆体一样,AI模型开始与原始数据分布失去联系,导致AI世界中的混乱和困惑增加,这种现象被称为“模型崩溃”。
模型崩溃的现象
就像《多重身份》中的道格在创建更多克隆体时面临混乱一样,当AI模型被递归地训练在先前版本生成的数据上时,它们变得越来越愚蠢和夸张。
什么是模型崩溃?
模型崩溃是指随着时间的推移,AI模型逐渐丧失有关原始内容(数据)分布的信息的退化过程。当AI模型训练在由它们的前身生成的数据上时,它们开始“遗忘”真实的底层数据分布,导致它们的生成能力变窄。
虽然这个技术解释超出了本博客的范围,但你可能会在一些AI图像生成器中观察到这一点-当它们开始生成几乎相同的图像时,很可能模型已经崩溃。也许一个更熟悉的例子是AI生成的新闻网站、评论和内容生产工厂。这些网站基本上是自动生成事实不准确的文章,并且有能力以惊人的速度传播错误信息[1]。
现在,其中一部分可能与AI幻觉有关,但这些AI内容生成器很有可能是从其他AI生成的文章中抓取文章并自动重写它们。其中许多都是一眼就能认出来-它们通常充满广告和弹窗,几乎没有有意义的内容。
这就像《多重身份》中的克隆体随着每一代变得越来越愚蠢和夸张。
它是如何发生的?
模型崩溃可能是由于训练数据缺乏多样性、偏见放大和模型过度拟合等多种因素引起的。当AI模型训练在由AI生成的数据上时,它实际上是在从自身的反射中学习。这种反射就像“电话游戏”,随着每次迭代,它变得更加扭曲。
当我们训练AI使用AI时,它变得越来越愚蠢。
例如,看看这张冲浪者的照片。
这是Midjourney从这张照片创建的四个描述之一:
“在火奴鲁鲁的荣耀穿着冲浪者雕像,风格为浅金色和粉色,弗兰克·弗拉泽塔,非洲、大洋洲和美洲的传统艺术,对称的安排,扭曲的树枝,街头艺术美学,叙事驱动的视觉叙事-AR 4:3”
这是我的照片的四个AI生成版本:
是的,这些颜色相当粉红,但第一张看起来最接近原始图像,而我之前不知道弗兰克·弗拉泽塔是谁,但我让它描述那张图像,然后简单地选择了第一张。
“一个冲浪者的雕像,站在一张粉色冲浪板上,周围有一些花朵,以光线跟踪、单色构图、礁浪、低角度拍摄、浮夸、充满活力的街景、rtx开启的风格,ar 77:58”
利用上述描述,生成了下面的四张图像。
现在这些相当有趣,但似乎与原始图像没有任何关系。这只是距离原始图像仅有两代的遗传学过程……如果我们重复这个过程100次、1000次或者10000次会发生什么呢?这并不是退化学习的完美例子,而是AI熵的一个例子。系统趋向于越来越无序的状态。
来自聪明人的见解
一篇名为《递归的诅咒:用生成的数据训练模型会使模型遗忘》的研究论文讨论了模型崩溃的技术方面。作者证明了这种情况可能发生在所有模型上,不仅仅是生成型AI模型。
模型变得更笨(退化学习)
研究中的一个关键见解是“退化学习”的概念。在AI模型的背景下,退化学习指的是模型随着时间的推移失去了准确表示原始数据分布的多样性和复杂性的能力。
作者引用了以下例子:
正如您所见,给定一些输入文本,如果每个模型都在前几代生成的数据上进行训练,它就变得毫无意义。
这是因为以下几个原因:
- 罕见事件的丢失:由于模型训练的数据是由先前版本生成的数据,它们倾向于关注最常见的模式,开始遗忘罕见或不太可能发生的事件。这类似于模型失去了它们的“长期记忆”,就像《重返未来》中的道格一样。罕见事件通常在数据中很重要,无论它们代表了制造过程中的异常情况还是欺诈交易。了解和保持罕见事件是很重要的。例如,在文本分析项目中的常见做法是去除“垃圾”词汇,这些词汇可能是代词、定冠词和不定冠词等等。然而,在欺诈用例中,代词正是欺诈的信号。欺诈者倾向于用第三人称而不是第一人称说话。
- 偏见放大:在AI生成的数据上进行训练的每次迭代都可能放大现有的偏见。由于模型的输出基于其训练数据,训练数据中的任何偏见都可能被强化和夸大,也类似于多个道格。我们已经在传统AI领域看到了偏见的放大,这导致了歧视性招聘、医疗领域的种族偏见或有歧视性的推文。我们需要建立控制措施来检测和减轻其持续性。
- 生成能力的收窄:随着模型越来越受其自身对现实的投射的影响,其生成能力开始变窄。模型开始产生越来越同质化的内容,不再代表原始数据中的多样性和罕见事件。当一切都开始回归到平均值和同质化的状态时,这将导致原创性的丧失(我们已经在食谱网站上看到了这一点)。对于LLMs来说,正是变化赋予每个作家或艺术家以他们独特的语调和风格。
- 功能逼近误差:论文提到,如果函数逼近器不够表达能力,则可能发生功能逼近误差。使用更具表达能力的模型可以减少这种错误,但过多的表达能力可能会增加噪音并导致过拟合。
退化学习的特点是,模型在每次训练AI生成内容的迭代中,学习和表达数据的能力逐渐恶化。
这对AI模型生成的内容的质量和可靠性有重要影响。
模型崩溃的影响
了解模型崩溃现象很有趣,但同样重要的是认识到其影响。模型崩溃可能产生深远的后果,影响AI生成内容的质量、可靠性和公正性。如果不加以妥善处理,您的组织可能面临风险。
质量和可靠性
随着AI模型经历退化学习,它们生成的内容的质量和可靠性可能显著下降。这是因为模型与原始数据分布失去联系,更多地受到自身对现实的投射的影响。例如,用于生成新闻文章的AI模型可能开始产生事实不准确、过于同质化或纯粹虚假的内容!
公正性和代表性
模型崩溃可能对公正性和代表性产生严重影响。随着模型遗忘罕见事件和其生成能力的减弱,与边缘化社区或较少见主题相关的内容可能被低估或曲解。这可能会延续偏见和刻板印象,并导致某些声音和观点的排除。
道德关切
模型崩溃所带来的道德问题是非常重要的。当AI生成的内容用于决策、教育或信息传播时,内容的完整性至关重要。模型崩溃可能导致偏见、不准确或同质化的内容传播,这可能具有道德影响,特别是如果它影响到人们的生活、观点或机会获取。
经济和社会影响
在经济和社会层面上,模型崩溃可能影响对AI技术的信任和采用。如果企业和消费者无法依赖AI模型生成的内容,他们可能不太可能采用这些技术。这对于严重依赖AI的行业具有经济影响,对于公众的看法和对AI的信任具有社会影响。
缓解模型崩溃的策略
模型崩溃及其深远的影响需要制定缓解其影响的策略。以下是一些可用于预防或减轻AI系统中模型崩溃的策略:
保留原始人类生成的数据集
研究论文中的一个关键观点是保留原始人类生成的数据集的重要性。定期使用这些数据对模型进行重新训练可以帮助确保模型保持现实基础,并继续代表人类经验的多样性和复杂性。微软研究的最新一篇论文建议使用像教科书这样的可信数据来训练LLM,这可能有助于提高LLM的准确性。
引入新的人类生成的数据集
除了保留原始数据集外,引入新的、干净的人类生成的数据集到训练过程中是有益的。这有助于防止模型限制其生成能力,并确保其继续学习和适应新信息。随着公司开始在其专有的企业数据上进行LLM的微调,这可能有助于防止LLM的退化。
监控和定期评估
定期监控和评估AI模型的性能至关重要。通过建立评估指标和基准,可以检测到模型崩溃的早期迹象。这允许及时进行干预,例如调整训练数据或调整模型参数。这与我们对模型监控的传统指导没有什么不同,公司需要实施MLOps框架以持续监控模型和数据的漂移。他们不仅需要检测到这一点,还需要额外的机制来确保模型不会产生幻觉,并产生与公司目标一致的结果,这对许多组织来说是一种新能力。
多样化训练数据
确保训练数据多样化,代表不同的观点和经验,有助于防止偏见并确保AI生成内容的公平性。这包括确保边缘化社区和罕见事件的代表性。毫无疑问,组织需要了解用于训练模型的源数据,以确保其与现实一致,并代表社会最好的一面。盲目使用充满负面、偏见和错误信息的互联网数据只会带来灾难。
社区协调与合作
模型崩溃不仅是一个技术挑战,也是一个伦理和社会问题。涉及AI公司、内容制作者、研究人员和决策者的社区广泛协调是必不可少的。分享信息、最佳实践,并在制定标准和指南方面进行合作,对解决模型崩溃问题至关重要。尽管指南和框架是好的,但要在地缘政治边界上实施和获得认同将是具有挑战性的,这与联合国人工智能伦理框架类似。
摘要
在《Multiplicity》中,道格试图克隆自己来管理责任,结果导致了意想不到的混乱和熵增。这个情景在人工智能的世界中也有相似之处,将AI生成的数据用于训练模型可能会导致一种称为模型崩溃的熵增。
就像电影中的克隆人一代比一代更愚蠢和混乱一样,AI模型在训练自己的输出时可能会失去准确表示原始数据的多样性和复杂性的能力。
模型崩溃,类似于《Multiplicity》中的熵增,对于AI生成内容的质量、可靠性和公平性具有深远影响。这提醒我们,无节制的复制,无论是电影中的克隆还是AI训练自己的数据,都可能导致信息的丢失和无序的增加。
然而,与《Multiplicity》中无控制的克隆不同,我们有工具和知识来管理和减轻AI系统中的模型崩溃。通过保留原始的人工制作数据集,多样化训练数据,定期监控AI模型,并促进社区协调,我们可以抵消熵增,确保AI仍然是可靠和有益的工具。
随着人工智能的不断发展,我们必须记住《Multiplicity》中的教训,熵增以及关于模型崩溃的研究。通过集体努力,我们可以负责任地实践人工智能,确保其保持现实基础并满足所有社区的多样需求,而不陷入混乱。
本质上,通过积极管理AI数据的“克隆过程”并注意其可能引发的熵增,我们可以引导AI的发展朝着创新和负责任的方向发展。
如果您想了解更多关于人工智能的信息,请查看我的书籍《Artificial Intelligence: An Executive Guide to Make AI Work for Your Business》在亚马逊上出售。
[1] Thompson, Stuart A. 2023. “A.I.-Generated Content Discovered on News Sites, Content Farms and Product Reviews.” The New York Times, May 19, 2023, sec. Technology. https://www.nytimes.com/2023/05/19/technology/ai-generated-content-discovered-on-news-sites-content-farms-and-product-reviews.html.