一个初学者友好的生成式人工智能简介
让我们了解生成式人工智能背后的大局
过去几个月中,所谓的“生成式人工智能”崛起了,它是人工智能(AI)的一个子领域。像ChatGPT这样的工具已成为最热门的话题之一,并且正在成为许多工作中日常任务的基本工具(甚至用于学习编程)。
像“DALL-E”、“ChatGPT”和“生成式人工智能”这样的词汇在社交媒体、媒体、与同事的聊天以及与我们世界相关的一切中都占据了主导地位。几乎每个人都在谈论它们。
但是生成式人工智能是什么?它与“普通”人工智能有何不同?
在本文中,我们将澄清生成式人工智能背后的大局。因此,如果您参与了讨论,但对这个主题没有清楚的想法,那么本文绝对适合您。
这是一个辩论性的解释,以了解生成式人工智能的基本原理。所以,不用担心:这里不会有任何代码。只有思想和描述,并且将以非常简短和简明的方式呈现。具体而言,我们将重点介绍大型语言模型和图像生成模型。
这是您将在这里学到的内容摘要:
目录:什么是生成式人工智能,它与传统人工智能有何不同?大型语言模型图像生成
什么是生成式人工智能,它与传统人工智能有何不同?
生成式人工智能是人工智能的一个子领域,涉及创建能够生成新数据(如图像、文本、代码和音乐)的算法。
生成式人工智能与“传统人工智能”之间的最大区别在于,前者基于训练数据生成新数据。此外,它可以处理“传统人工智能”无法处理的数据类型。
让我们从稍微技术的角度来说:
- “传统人工智能”可以被定义为判别式人工智能。在这种情况下,我们训练机器学习模型,使其能够对新的、未见过的数据进行预测或分类。这些机器学习模型只能处理数字,有时可以处理文本(例如,在自然语言处理的情况下)。
- 在生成式人工智能中,我们训练一个机器学习模型,并且它创建一个与其训练数据类似的输出。这类机器学习模型可以处理不同类型的数据,如数字、文本、图像和音频。
让我们将这些过程可视化:
所以,在传统人工智能中,我们训练一个机器学习模型从数据中学习。然后,我们用新的、未见过的数据来喂养它,并且它可以进行判别,进行预测或分类。
就所示例而言,我们训练了一个机器学习模型来识别图像中的狗。然后,我们将经过训练的机器学习模型与新的、未见过的狗的图片进行对比,它将能够判断这些新图片是否代表狗。
这是一个典型的深度学习算法在分类问题中的任务。
相反,在生成式人工智能中,我们使用来自各个来源的大量数据来训练一个机器学习模型。然后,通过一个提示(用户输入的自然语言查询),模型将给出一个与其训练数据类似的输出。
为了保持例子的连贯性,我们的模型已经在大量(文本)数据上进行了训练,其中包括了关于狗的解释。然后,如果用户向模型查询狗是什么,模型将用自然语言描述狗是什么。
这是像ChatGPT这样的工具通常执行的典型任务。
现在,让我们来看看一些类型的生成式人工智能模型。
大型语言模型
让我们从大型语言模型(LLM)开始深入了解各种生成式人工智能子领域。LLM是指(来自维基百科):
由具有大量参数(数千万到数十亿)的人工神经网络组成的计算机化语言模型,通过使用自监督学习或半监督学习在大量无标签文本上进行训练。
虽然大型语言模型一词没有正式定义,但通常指的是具有数百万甚至数十亿参数的深度学习模型,它们已经在大型语料库上进行了“预训练”。
所以,LLM是深度学习(DL)模型(也称为神经网络),在大量文本上训练了数百万参数(这就是为什么我们称之为“大型”),并且对解决一些语言问题很有用,例如:
- 文本分类
- 问答
- 文档摘要
- 文本生成
所以,与标准ML模型的另一个重要区别是,在这种情况下,我们可以训练一个可以用于不同任务的DL算法。
让我解释得更清楚。
如果我们需要开发一个能够识别图像中的狗的系统,就像我们之前看到的那样,我们需要训练一个DL算法来解决一个分类任务,即告诉我们新的、未见过的图像是否代表狗。仅此而已。
相反,训练LLM可以帮助我们在上述所有任务中。因此,这也解释了训练LLM所需的计算能力(和金钱!)的数量(需要的数据量达到了百万亿字节!)。
正如我们所知,LLM是通过提示由用户查询的。现在,我们必须区分提示设计和提示工程之间的差异:
- 提示设计。这是创建一个特定适用于系统正在执行的具体任务的提示的艺术。例如,如果我们想要要求我们的LLM将一段文本从英文翻译成意大利文,我们必须用英文编写一个具体的提示,要求模型将我们要粘贴的文本翻译成意大利文。
- 提示工程。这是创建提示以提高LLM性能的过程。这意味着使用我们的领域知识向提示添加细节,例如特定关键字、特定上下文和示例,以及如有必要的期望输出。
当然,当我们提示时,有时我们会混合使用两者。例如,我们可能希望一个涉及特定知识领域的英文到意大利文的翻译。
因此,例如,一个提示可能是:“将以下内容翻译成意大利文:
截面受到正应力的影响。
请注意,我们处于力学领域,因此“正应力”必须与之相关联。”
因为,你知道的:“正”和“应力”可能会被模型(甚至是人类)误解。
三种类型的LLM
有三种类型的LLM:
- 通用语言模型。这些模型能够根据训练数据中的语言预测一个词(或短语)。想象一下,例如,您的电子邮件自动完成功能,就可以理解这种类型。
- 指令调整模型。这些类型的模型被训练以预测输入中给出的指令的响应。总结给定的文本是一个典型的例子。
- 对话调整模型。这些模型被训练以与用户进行对话,使用后续的回复。一个由人工智能驱动的聊天机器人就是一个典型的例子。
无论如何,请注意,实际分发的模型具有混合功能。或者,至少可以执行多种类型的典型操作。
例如,如果我们考虑ChatGPT,我们可以明确地说它:
- 可以根据输入的指令预测响应。实际上,它可以总结文本,通过提示为我们提供某个特定论点的见解等等。所以,它具有像指令调整模型这样的特点。
- 经过训练,可以与用户进行对话。这一点非常明显,因为它会连续使用提示,直到我们对其回答满意为止。所以,它还具有对话调整模型的特点。
图像生成
图像生成已经存在了相当长的时间,与人们可能相信的相反。
无论如何,在最近几年,它变得越来越受欢迎,特别是像“DALL-E”或“稳定扩散”这样的工具,它们明确了它们的用途,使这项技术能够普及到全球。
我们可以说,图像生成可以分为四个类别:
- 变分自编码器(VAEs)。变分自编码器是“概率生成模型,其整体结构只需要神经网络的一部分”。简单来说,它们将图像编码为压缩大小,然后解码为原始大小。在此过程中,它们学习数据的分布。
- 生成对抗网络(GANs)。这通常是最为人所知的,至少作为生成人工智能领域中共鸣的一个词。GAN是“一种机器学习框架类别,其中两个神经网络相互竞争,其中一个的收益是另一个的损失”。这意味着一个神经网络创建图像,而另一个神经网络则预测图像是真实还是伪造的。
- 自回归模型。在统计学中,自回归模型是随机过程的表示。在生成图像的上下文中,这类模型通过将图像视为像素序列来生成图像。
- 扩散模型。扩散模型受热力学启发,绝对是图像生成子领域中最有前景和最有趣的模型类型。
这是扩散模型背后的工作过程:
- 前向分布过程。我们有一个初始的迭代过程,图像的结构在数据分布中被“破坏”。简而言之,就像我们不断向图像添加噪声,直到所有像素都变成纯噪声,图像不再被人眼识别。
- 逆扩散过程。然后,有一个逆扩散过程,即实际的学习过程:它恢复数据的结构。就像我们的模型学习如何“去噪”像素以重新创建图像。
连接一切的力量
如果你一直保持关注到现在,一个问题应该自然而然地在你的脑海中浮现:“好吧,Federico,很清楚。但是我还缺了一点:当我使用“DALL-E”时,我插入一个提示,它输出一张图像:我们还没有讨论过这个问题,对吗?!”
是的,我们还没有。
以上,我们对生成图像最有前景(目前最常用)的模型进行了简要描述,但缺少的部分是提示。
实际上,我们讨论了它们的高层工作原理。也就是说,我们简要解释了它们的学习过程如何工作。
但是,当它们与LLMs结合在一起时,这些模型的真正力量就显现出来。事实上,这种结合使我们能够将提示工程的能力与要求模型输出的能力相结合。
换句话说:我们将使用自然语言作为输入的可能性与能够理解它并根据其生成图像的模型相结合。
这不是一种超能力吗?!
结论
总而言之,我们可以说,生成人工智能是人工智能的一个子领域,它根据训练数据生成类似的新数据。
一方面,LLMs可以根据训练数据生成文本,图像生成模型可以根据训练图像生成新图像,而生成人工智能的真正力量,至少在图像的情况下,依赖于LLM和图像生成模型的结合。这使我们能够根据提示创建图像。
注意:本文受到Google提供的生成人工智能课程的启发,并引用了该课程的一些参考资料。我建议参加这门课程,以更好地理解生成人工智能。
免费Python电子书:
开始学习Python数据科学,但感到困难吗?订阅我的通讯并获取我的免费电子书:它将为您提供正确的学习路径,以便通过实践经验学习Python数据科学。
喜欢这个故事吗?通过我的推荐链接,成为小猪AI会员,每月支付5美元:我将获得一小部分佣金,您不需要支付额外费用:
使用我的推荐链接加入小猪AI – Federico Trotta
作为小猪AI会员,您的会员费的一部分将用于支付您阅读的作者,并且您将获得对每个故事的完全访问权限…
federicotrotta.medium.com