你的聊天GPT和其他缩写的终极指南

似乎每个人都对ChatGPT疯狂追捧,它已成为一种文化现象如果你还没有加入ChatGPT大军,本文或许可以帮助你更好地理解这项创新背后的背景和激动人心的点

所有这些缩略语 – ML、AI、AGI – 意味着什么?

ML(机器学习)是一种解决困难计算问题的方法 – 不是使用编程语言编码,而是构建一个“学习”解决方案的算法,这个解决方案来自数据样本。

AI(人工智能)是计算机科学领域处理问题(例如图像分类、处理人类语言)的一个领域,这些问题难以使用传统编程解决。ML和AI相辅相成,ML是解决在AI中制定的问题的工具。

AGI(人工通用智能)是人们通常所说的AI的正确术语 – 计算机实现类似于人类智力能力和广泛推理的能力。这仍然是AI领域研究人员的终极目标。

什么是神经网络?

人工神经网络(ANN)是一类ML算法和数据结构(简称模型),因为它受到生物神经组织结构的启发而得名。但是,这并不能完全模仿它背后的所有生物机制。相反,ANN是基于生物学思想的复杂数学函数。

当我读到“模型有20亿个参数”时,这是什么意思?

神经网络是层次结构,由互相连接在一起的统一单元组成。这些单元之间的互连方式称为架构。每个连接都有一个称为权重的相关数字,并且权重存储模型从数据中学到的信息。因此,当您读到“模型有20亿个参数”时,这意味着模型中有20亿个连接(和权重),它大致指定了神经网络的信息容量。

什么是深度学习?

神经网络自1980年代以来一直在研究,但是当电脑游戏行业引入了廉价的个人超级计算机 – 图形处理单元(GPU)时,它产生了真正的影响。研究人员将这种硬件用于神经网络训练过程,并取得了令人印象深刻的结果。第一个深度学习架构之一,卷积神经网络(CNN),能够执行复杂的图像识别,这在传统的计算机视觉算法中是困难的。自那时以来,使用神经网络的ML已被重新命名为深度学习,其中“深度”指的是网络能够探索的复杂NN架构。

我在哪里可以了解更多关于这项技术如何工作的细节?

我建议您观看Grant Sanderson在他的“动画数学”频道上发布的视频。

大型语言模型是什么意思?

要使用计算机处理人类语言,必须将语言定义为数学形式。这种方法应该足够通用,以包括每种语言的独特特征。2003年,研究人员发现如何用神经网络表示语言,并将其称为神经概率语言模型或LM简称。这就像手机上的预测文本 – 给定一些初始的单词序列(或标记),模型可以预测下一个可能的单词及其相应的概率。使用以前生成的单词作为输入继续进行此过程(这是自回归),该模型可以在其训练的语言中生成文本。

当我阅读有关语言模型的文章时,我经常遇到“transformer”这个术语。这是什么意思?

表示一系列项目是神经网络的一个难题。有几次尝试解决这个问题(主要是围绕循环神经网络的变化),这产生了一些重要的想法(例如单词嵌入,编码器-解码器架构和注意机制)。2017年,一组谷歌研究人员提出了一种新的NN架构,称之为Transformer。它将所有这些想法与有效的实际实现相结合。它旨在解决语言翻译问题(因此得名),但证明对捕捉任何序列数据的统计属性都很有效。

为什么每个人都在谈论OpenAI?

OpenAI使用transformers构建了一个神经概率语言模型。他们实验的结果被称为GPT(生成式预训练变压器)模型。预训练意味着他们在互联网上挖掘的大量文本上训练变压器NN,然后采用其解码器部分进行语言表示和文本生成。有几代GPT:

  • GPT-1:一个最初的实验模型,用于验证该方法
  • GPT-2:展示了生成连贯人类语言文本和零样本学习的能力——即能够推广到从未受过特定训练的领域(例如语言翻译和文本摘要等)
  • GPT-3是架构的扩大(GPT-2的15亿个参数与最大的GPT-3的1750亿个参数相比),并且是在更大更多样的文本体上进行训练的。其最重要的特点是能够仅仅看到提示中几个示例就能在广泛的领域中生成文本(因此称为少量学习),而无需进行任何特殊的微调或预训练。
  • GPT-4:一个更大的模型(确切特征未披露),更大的训练数据集,以及多模式(文本与图像数据增强)。

由于GPT模型具有巨大的参数数量(实际上,您需要一个由数百到数千个GPU组成的大型计算群集来训练和提供这些模型),它们被称为大型语言模型(LLMs)。

GPT-3和ChatGPT之间的区别是什么?

原始的GPT-3仍然是一个单词预测引擎,因此主要是AI研究人员和计算语言学家感兴趣。在给定一些初始种子或提示的情况下,它可以无限生成文本,这在实际上没有多大意义。OpenAI团队继续尝试对模型进行微调,将提示视为执行指令。他们输入了一个大量由人类策划的对话数据集,并发明了一种新方法(RLHF-从人类反馈中强化学习)来使用另一个神经网络作为验证代理来显着加速此过程(在AI研究中很典型)。他们发布了一个名为InstructGPT的MVP模型,基于较小的GPT-3版本,并于2022年11月发布了一个名为ChatGPT的全功能版本。凭借其简单的聊天机器人和Web UI,它改变了IT世界。

语言模型对齐问题是什么?

鉴于LLMs仅仅是复杂的统计机器,生成过程可能会朝着意想不到和不愉快的方向发展。这种类型的结果有时被称为AI幻觉,但从算法的角度来看,它仍然是有效的,尽管对人类用户来说是意外的。

原始的LLMs需要通过人类验证器和RLHF进行处理和额外的微调,如前所述。这是为了使LLMs与人类期望相一致,不出所料,这个过程本身被称为对齐。这是一个漫长而繁琐的过程,需要大量的人类工作;这可以被视为LLM的质量保证。模型的对齐是OpenAI / Microsoft ChatGPT和GPT-4与它们的开源对应版本之间的区别。

为什么有人要停止进一步开发语言模型的运动?

神经网络是黑匣子(一个由一些结构的巨大数字数组组成)。有一些方法可以探索和调试它们的内部,但GPT的杰出泛化质量仍未得到解释。这是禁止运动背后的主要原因——一些研究人员认为,在我们更好地理解LLMs的基本过程之前,我们正在玩火(科幻小说给我们提供了引人入胜的AGI出生和技术单一性的情景)。

LLMs的实际用例是什么?

最流行的用例包括:

  • 大型文本摘要
  • 反之亦然-从摘要中生成文本
  • 文本风格(模仿作者或角色)
  • 将其用作个人导师
  • 解决数学/科学练习
  • 回答文本上的问题
  • 从简短描述中生成编程代码

现在GPT是唯一可用的LLMs吗?

GPT是最成熟的模型,由OpenAI和Microsoft Azure OpenAI服务提供API访问(如果您需要私人订阅)。但这是人工智能的前沿,自ChatGPT发布以来已经发生了许多有趣的事情。谷歌已经建立了其PaLM-2模型;Meta为研究人员开源了LLaMA模型,这促进了许多调整和增强(例如来自斯坦福的Alpaca)和优化(现在您可以在笔记本电脑甚至智能手机上运行LLMs)。

Huggingface提供BLOOM、StarCoder和HuggingChat等完全开源的项目,没有LLaMA研究的限制。Databricks训练了他们自己完全开源的Dolly模型。Lmsys.org提供了自己的Vicuna LLM。Nvidia的深度学习研究团队正在开发他们的Megatron-LM模型。GPT4All倡议也值得一提。

然而,所有这些开源替代品仍然落后于OpenAI的主要技术(尤其是在对齐方面),但差距正在迅速缩小。

如何使用这项技术?

最简单的方法是使用OpenAI公共服务或他们的平台API playground,这提供了对模型更低级别的访问和对网络内部工作的更多控制(指定系统上下文,调整生成参数等)。但是,您应该仔细审查他们的服务协议,因为他们使用用户交互来进行额外的模型改进和训练。或者,您可以选择Microsoft Azure OpenAI服务,它们提供相同的API和工具,但具有私有模型实例。

如果您更有冒险精神,可以尝试由HuggingFace托管的LLM模型,但您需要更熟练地掌握Python和数据科学工具。Denis Shipilov是一位经验丰富的解决方案架构师,拥有从分布式系统设计到大数据和数据科学相关项目的广泛专业知识。