生成式人工智能:CHATGPT、Dall-E、Midjourney等背后的理念
生成式人工智能:CHATGPT、Dall-E、Midjourney等的理念
艺术、交流以及我们对现实的认知正在迅速转变。回顾人类创新的历史,我们可能会认为轮子的发明或者电力的发现是重大的飞跃。今天,一场新的革命正在进行——弥合人类创造力和机器计算之间的鸿沟。这就是生成式人工智能。
生成模型已经模糊了人类和机器之间的界限。随着像GPT-4这样使用Transformer模块的模型的出现,我们离自然且上下文丰富的语言生成更近了一步。这些进步推动了文档创建、聊天机器人对话系统甚至合成音乐创作等应用。
最近的大型科技公司的决策凸显了生成式人工智能的重要性。微软已经决定本月停止Cortana应用,以优先发展像Bing Chat这样的新一代生成式人工智能创新。苹果也将其226亿美元的研发预算中的一大部分用于生成式人工智能,这一点由首席执行官蒂姆·库克表示。
模型的新时代:生成式与判别式
生成式人工智能的故事不仅仅关乎它的应用,而且根本上关乎它的内部运作。在人工智能生态系统中,存在着两种模型:判别式和生成式。
判别式模型是大多数人在日常生活中遇到的。这些算法接收输入数据,如文本或图像,并将其与目标输出,如单词翻译或医学诊断,进行配对。它们关乎映射和预测。
而生成式模型则是创造者。它们不仅仅是解释或预测;它们从与现实世界价值通常无关的数字向量中生成新的复杂输出。
生成式模型的技术
生成式模型的存在要归功于深度神经网络,这些复杂的结构设计用于模仿人脑的功能。通过捕捉和处理数据中多样的变化,这些网络成为众多生成式模型的基础。
这些生成式模型是如何诞生的?通常情况下,它们是由深度神经网络构建的,经过优化以捕捉数据中多样的变化。一个典型的例子是生成式对抗网络(GAN),其中两个神经网络——生成器和判别器——在一种独特的师生关系中相互竞争和学习。从绘画到风格迁移,从音乐创作到游戏对战,这些模型正在以前所未有的方式不断演化和扩展。
这并不止于GAN。变分自编码器(VAEs)也是生成式模型领域的另一个关键角色。VAEs因其能够通过看似随机的数字创建逼真的图像而脱颖而出。这是如何实现的呢?通过对这些数字进行潜在向量处理,产生了与人类美学复杂性相似的艺术作品。
生成式人工智能类型:文本到文本,文本到图像
Transformer和LLM
Google Brain的论文“Attention Is All You Need”标志着我们对文本建模的思考方式的转变。与循环神经网络(RNNs)或卷积神经网络(CNNs)等复杂的顺序架构不同,Transformer模型引入了注意力的概念,这意味着根据上下文关注输入文本的不同部分。其中一个主要好处是易于并行化。与逐步处理文本的RNNs不同,使其难以扩展,Transformer可以同时处理文本的部分,使训练在大型数据集上更快速、更高效。
- Transformer模型架构
在长篇文本中,并非每个单词或句子都具有相同的重要性。根据上下文,一些部分需要更多的关注。这种基于相关性转移注意力的能力正是注意机制的模仿。
要理解这一点,想象一个句子:“Unite AI发布AI和机器人新闻。”现在,预测下一个单词需要理解在上下文中最重要的内容。术语“机器人”可能暗示下一个单词可能与机器人领域的某一特定进展或事件有关,而“发布”可能表明下一个上下文可能会涉及最近的出版物或文章。
- 自注意力演示
Transformer中的注意机制旨在实现选择性关注。它们评估输入文本的不同部分的重要性,并在生成响应时决定“看”哪里。这与RNN等旧的架构不同,旧的架构试图将所有输入文本的精髓塞进一个“状态”或“记忆”中。
注意力的工作方式类似于键值检索系统。在尝试预测句子中的下一个单词时,每个前面的单词都提供一个“键”,暗示其潜在的相关性,并且根据这些键与当前上下文(或查询)的匹配程度,它们对预测贡献了一个“值”或权重。
这些先进的AI深度学习模型已经无缝地集成到各种应用中,从Google的BERT增强搜索引擎到GitHub的Copilot,后者利用大规模语言模型(LLMs)的能力将简单的代码片段转化为完全功能的源代码。
像GPT-4、Bard和LLaMA这样的大型语言模型(LLMs)是巨大的结构,旨在解析和生成人类语言、代码等。它们的巨大规模,从数十亿到数万亿个参数不等,是其定义特征之一。这些LLMs被输入大量的文本数据,使它们能够理解人类语言的复杂性。这些模型的一个显著特点是它们对“少样本”学习的适应能力。与需要大量特定训练数据的传统模型不同,LLMs可以从非常有限数量的示例(或“样本”)中进行泛化。
2023年中后期的大型语言模型(LLMs)现状
模型名称 | 开发者 | 参数 | 可用性和访问方式 | 显著特点和备注 |
GPT-4 | OpenAI | 1.5万亿 | 非开源,仅API访问 | 在各种任务上表现出色,可以处理图像和文本,最大输入长度为32,768个标记 |
GPT-3 | OpenAI | 1750亿 | 非开源,仅API访问 | 展示了少样本和零样本学习的能力。能够以自然语言完成文本补全。 |
BLOOM | BigScience | 1760亿 | 可下载的模型,提供托管API | 由全球合作开发的多语言LLM。支持13种编程语言。 |
LaMDA | 1730亿 | 非开源,无API或下载 | 在对话训练中,可以学会谈论几乎任何事情 | |
MT-NLG | Nvidia/Microsoft | 5300亿 | 通过应用程序访问API | 利用基于Transformer的Megatron架构进行各种NLP任务。 |
LLaMA | Meta AI | 70亿至650亿 | 通过应用程序可下载 | 旨在通过向研究、政府和学术界提供访问权来实现民主化人工智能。 |
LLM的用途是什么?
LLM可以以多种方式使用,包括:
- 直接利用:只需使用预训练的LLM进行文本生成或处理。例如,使用GPT-4在没有任何额外微调的情况下撰写博客文章。
- 微调:将预训练的LLM调整为特定任务,这种方法称为迁移学习。例如,自定义T5以生成特定行业文件的摘要。
- 信息检索:使用BERT或GPT等LLM作为较大体系结构的一部分,开发可以提取和分类信息的系统。
- ChatGPT微调架构
多头注意力:为什么只有一个,而不是多个?
然而,仅依赖单个注意力机制可能会有限。文本中的不同单词或序列可能具有不同类型的关联或关联。这就是多头注意力的用处。多头注意力不仅使用一个注意力权重集,而是使用多个集合,使模型能够捕捉输入文本中更丰富的关系。每个注意力“头”可以关注输入的不同部分或方面,它们的综合知识用于最终的预测。
ChatGPT:最受欢迎的生成AI工具
从2018年GPT的问世开始,该模型基本上是建立在12层、12个注意力头和1.2亿个参数的基础上,主要在一个名为BookCorpus的数据集上进行训练。这是一个令人印象深刻的开端,展示了语言模型的未来。
2019年推出的GPT-2在层数和注意力头方面增加了四倍。值得注意的是,它的参数数量激增到了15亿。这个增强版本的训练数据来自WebText,这是一个包含了来自各种Reddit链接的40GB文本的数据集。
GPT-3于2020年5月发布,它有96层、96个注意力头和庞大的1750亿个参数。使GPT-3与众不同的是其多样化的训练数据,包括CommonCrawl、WebText、英文维基百科、图书语料库和其他来源,总共达到570GB。
ChatGPT的工作细节仍然是一个严格保密的秘密。然而,一种被称为“从人类反馈中进行强化学习”的过程被认为是关键。这种技术源于早期的ChatGPT项目,对将GPT-3.5模型与书面指令更加协调起到了关键作用。
ChatGPT的训练过程包括三个层次的方法:
- 监督微调:涉及整理人工编写的对话输入和输出,以改进基础的GPT-3.5模型。
- 奖励建模:人类根据质量对各种模型输出进行排名,帮助训练一个考虑对话背景的奖励模型对每个输出进行评分。
- 强化学习:对话背景作为背景,基础模型提出一个回应。这个回应由奖励模型评估,并使用一种名为近端策略优化(PPO)的算法进行优化。
对于那些刚刚接触ChatGPT的人,可以在此处找到一个全面的入门指南。如果您想深入研究ChatGPT的提示工程,我们还有一个高级指南,介绍了最新和最先进的提示技术,可以在“ChatGPT & Advanced Prompt Engineering: Driving the AI Evolution”中找到。
扩散与多模型
而像VAE和GAN这样的模型通过一次遍历生成其输出,因此被锁定为它们所产生的内容,扩散模型引入了“迭代改进”的概念。通过这种方法,它们循环回来,纠正之前步骤中的错误,并逐步产生更加精细的结果。
扩散模型的核心是“破坏”和“改进”的艺术。在训练阶段,一个典型的图像逐渐通过添加不同级别的噪声进行破坏。然后将这个带有噪声的版本输入模型,试图将其“去噪”或“解除破坏”。通过多轮这样的过程,模型变得擅长恢复,能够理解细微和重大的异常。
- 从Midjourney生成的图像
生成图像的过程非常有趣。从完全随机的输入开始,通过模型的预测不断改进。目的是在最少的步骤中获得一张完美的图像。通过“噪声计划”来控制损坏程度,该机制控制在不同阶段应用多少噪声。在像“diffusers”这样的库中可以看到调度器根据已建立的算法决定这些噪声演绎的性质。
许多扩散模型的重要架构支柱是UNet——一种专为需要输出与输入空间维度相匹配的任务而设计的卷积神经网络。它是下采样和上采样层的混合,通过复杂的连接保留高分辨率数据,对于与图像相关的输出至关重要。
深入探索生成模型的领域,OpenAI的DALL-E 2成为文本和视觉AI能力融合的一个光辉例子。它采用了三层结构:
DALL-E 2展示了一种三层结构:
- 文本编码器:它将文本提示转化为潜在空间中的概念嵌入。这个模型不是从零开始的,它依赖于OpenAI的对比性语言-图像预训练(CLIP)数据集作为其基础。CLIP通过学习自然语言来学习视觉概念,从而在视觉和文本数据之间建立了桥梁。通过对比学习的机制,它识别和匹配图像与对应的文本描述。
- 先验:从编码器得到的文本嵌入然后转化为图像嵌入。DALL-E 2在这个任务上测试了自回归和扩散方法,后者展示了更优秀的结果。自回归模型,如Transformers和PixelCNN,按序列生成输出。另一方面,扩散模型,如DALL-E 2中使用的模型,通过文本嵌入将随机噪声转化为预测的图像嵌入。
- 解码器:这个过程的高潮部分,根据文本提示和先前阶段的图像嵌入生成最终的视觉输出。DALL.E 2的解码器的架构借鉴了另一个模型GLIDE,它也可以根据文本提示生成逼真的图像。
- DALL-E模型的简化架构
对Langchain感兴趣的Python用户可以查看我们的详细教程,涵盖了从基础知识到高级技术的所有内容。
生成AI的应用
文本领域
从文本开始,生成AI已经被像ChatGPT这样的聊天机器人彻底改变。这些实体依赖于自然语言处理(NLP)和大型语言模型(LLM),能够执行从代码生成和语言翻译到摘要和情感分析等各种任务。例如,ChatGPT已经被广泛采用,成为数百万人的标配。这进一步得到了以GPT-4、PaLM和BLOOM为基础的对话式AI平台的加强,这些平台可以轻松产生文本、辅助编程,甚至提供数学推理。
从商业角度来看,这些模型变得非常宝贵。企业将它们用于包括风险管理、库存优化和需求预测在内的各种操作。一些著名的例子包括Bing AI、谷歌的BARD和ChatGPT API。
艺术
生成AI对图像的世界产生了巨大的变革,尤其是自2022年DALL-E 2的推出以来。这项技术可以根据文本提示生成图像,具有艺术和专业意义。例如,midjourney利用这项技术生成了令人印象深刻的逼真图像。这篇最新帖子通过详细指南揭示了Midjourney,阐明了该平台及其提示工程的复杂性。此外,Alpaca AI和Photoroom AI等平台利用生成AI进行高级图像编辑功能,如去除背景、删除物体,甚至进行面部恢复。
视频制作
在生成AI领域,视频制作虽然还处于初级阶段,但正在展示出有希望的进展。像Imagen Video、Meta Make A Video和Runway Gen-2这样的平台正在推动可能性的边界,即使真正逼真的输出仍然在可见的地平线上。这些模型为创建数字人类视频提供了重要的实用性,其中Synthesia和SuperCreator等应用引领着潮流。值得注意的是,Tavus AI通过为个别观众定制视频提供了独特的卖点,这对于企业来说是一个福音。
代码创作
编码是我们数字世界中不可或缺的一部分,也没有被生成式人工智能所忽视。虽然ChatGPT是一种受欢迎的工具,但还开发了其他用于编码的人工智能应用程序。这些平台,例如GitHub Copilot、Alphacode和CodeComplete,可以作为编码助手,甚至可以根据文本提示生成代码。有趣的是这些工具的适应性。驱动GitHub Copilot的Codex可以根据个人的编码风格进行定制,凸显了生成式人工智能的个性化潜力。
结论
将人类创造力与机器计算相结合,生成式人工智能已经发展成为一种宝贵的工具,如ChatGPT和DALL-E 2这样的平台推动了人们对于创意的边界的探索。从创作文本内容到塑造视觉杰作,它们的应用广泛而多样。
与任何技术一样,伦理影响是至关重要的。虽然生成式人工智能承诺了无限的创造力,但在使用时必须负责任,意识到潜在的偏见和数据操纵的力量。
随着像ChatGPT这样的工具变得越来越易于获取,现在是测试和实验的绝佳时机。无论您是艺术家、编码人员还是技术爱好者,生成式人工智能的领域充满了等待探索的可能性。革命不在远方,它已经来临。所以,跳进去吧!