《十年生成式人工智能的教训》
Lessons from a Decade of Generative Artificial Intelligence
随着ChatGPT和Bard等生成式人工智能技术的热门,企业越来越希望了解该技术的用例。现在正是引发关于人工智能强大力量的讨论的好时机,但生成式人工智能并不是什么新鲜事。生成模型(即生成式人工智能)已经在幕后大放异彩超过十年,这一趋势受到了三个主要因素的推动:2015年Tensorflow和2016年PyTorch等开源软件库的发展;神经网络架构和训练的创新;以及图形处理单元(GPU)和张量处理单元(TPU)等硬件改进,以促进大规模神经网络的训练和推断。
在本文中,我将试图解释生成模型是什么,它们是如何发展到今天的状态的,以及如何使用它们,同时也会探讨它们的局限性。
生成模型是什么,它们从哪里来?
生成模型通过学习训练数据的分布来能够生成类似原始数据的合成数据或样本。这需要两个步骤:首先,模型在大型静态数据集上进行训练,然后从模型中进行采样以获得新的数据点。这个两步骤的过程的好处是,一旦模型训练完成,就可以以低成本生成大规模的新数据。
早期的生成模型相对简单,例如隐马尔可夫模型、朴素贝叶斯或高斯混合模型,但2010年左右,GPU进入主流机器学习领域,使得基于深度神经网络的生成模型更加灵活。此时,Deepmind(2010年)、Google Brain(2011年)和Facebook AI Research(2013年)等新的研究实验室开始成立,OpenAI稍晚于2015年底成立,进一步推动了深度学习和生成模型的发展。在此期间,许多新的架构开始出现,例如变分自编码器(VAEs,2013年)和生成对抗网络(GANs,2014年),它们在生成图像方面取得了最先进的结果。
为了促进这些更复杂模型的开发和部署,Google在2015年发布了开源库Tensorflow,紧随其后的是Facebook在2016年发布的PyTorch。这些库使得深度学习对广大从业者和研究人员来说更加易于接触,从而推动了新模型和新应用的快速发展。
其中一个突破性的模型是Transformer,这是一种于2017年出现的深度学习模型,现在成为了所有最先进的语言模型(如GPT-4)的基础。2018年出现的两个特定的基于Transformer的模型是Google的BERT(双向编码器从Transformer中得到的表示)和OpenAI的GPT(生成预训练Transformer)。它们都被设计为通用语言模型,可以执行各种任务,包括文本分类、情感分析和语言翻译。另一个在2019年出现并受到热力学启发的突破性模型是用于生成图像的扩散模型。
截至今天,扩散模型和Transformer模型是文本生成图像和语言模型的主要方法,分别取得了最先进的结果。例如,ChatGPT在2022年发布,今年(2023年)发布的更先进的GPT-4使用了Transformer架构,而稳定扩散和Midjourney等模型则都是基于扩散的模型。过去几年中,生成式人工智能的趋势是训练规模越来越大、参数越来越多的模型以取得更好的结果。这些工程壮举,如GPT-4和Midjourney v5,依赖于改进的硬件、成熟的软件库和高效的深度神经网络架构(即Transformer),它们之所以广受欢迎,部分原因是因为易于使用并对一般公众开放。
生成模型的应用
随着生成模型产生越来越引人入胜的结果,并通过易于使用的API越来越普及,它们逐渐适用于各种应用。对于图像,大多数应用都围绕着某种形式的内容创作和设计。生成模型的一个臭名昭著的应用例子是深度伪造技术(deepfakes)。尽管在电影和广告行业中这可能有潜在的好处,但深度伪造也可以被用于恶意传播虚假信息。对于ChatGPT、Bard和GPT-4等语言模型,应用包括文本摘要、翻译和补全,这对于营销内容和内部沟通特别有用。
在更技术的一面,像Codex和GitHub Copilot这样的语言模型已经成功地用于生成能够加速开发和帮助程序员的代码。当然,有效地指导这些模型是一门艺术,也就是提示工程。
需要考虑的挑战和风险
目前生成模型的基本风险是它们是黑盒模型,输出无法控制。这个问题可以以几种不同的方式表现出来,例如:
- 没有办法明确阻止这些模型生成冒犯性或图形化的文本和图像。仍然需要人工介入来过滤不适当的材料。
- 生成模型可能返回大量的训练数据,引发隐私和版权问题。最近,Stability AI被Getty Images提起诉讼的问题就凸显了这个问题。
- 从语言模型返回的信息可能不准确或具有误导性,因为模型无法对其输出进行事实核查。因此,在高风险的情况下(如医疗、金融或法律事务)不应依赖这些模型生成内容。此外,对于像GitHub Copilot这样的代码生成工具,在将代码投入生产之前应谨慎处理,因为可能会出现遗漏的边缘情况或导致生产流程中断的错误。
这只是使用生成模型工作的一些风险的几个例子。为了减轻这些风险,有效的生成模型应与人类合作,监控其输出并在需要时纠正结果。
生成AI的未来
可以肯定的是,生成AI的未来将继续受到推动其发展的相同力量的驱动。硬件和软件的改进将提高我们能够训练的模型的容量。新的架构和训练方法创新必然会出现,带来性能的飞跃和全新的最先进模型。此外,随着新机遇的出现,也会带来新的挑战。版权和知识产权法律需要进行调整,随着人工智能和数据法规的发展,可能会出现更多关于使用哪些数据来训练这些模型的隐私问题。深度伪造技术也将继续成熟,从而可以使用更先进的方法来传播虚假信息和假内容。尽管面临这些挑战,生成AI的未来依然光明,有潜力从医疗到电影再到金融等行业引发革命。