从文字到超越言语
From words to beyond language
大型语言模型(LLMs)简史
机器思维方法一旦启动,很可能很快就会超过我们的微薄能力… 它们将能够互相交流以提高智力。因此,在某个阶段,我们应该预料到机器会掌控一切。
— 阿兰·图灵(1912–1954)
大家好,今天我们正处于大型语言模型(LLMs)时代,这些模型赋予了GPT4、ChatGPT、DALL·E等许多其他人工智能技术以能力。这些技术对人类历史上一些最重大的突破负有责任,因此我们正处于一个重要的社会转变的边缘。很快,可能在我们的有生之年,我们开发和广泛使用的AI系统可能会比所有人类的智慧总和更加聪明。这可能是对人类的祝福,但也可能是一种诅咒。
之所以称之为祝福,是因为有无数的可能性被发现和即将被发现,这些可能性有潜力赋予人类力量,使其摆脱普遍的贫困、苦难和永恒的人类渴望,“幸福”。
之所以称之为诅咒,是因为超级智能AGI(人工通用智能)所拥有的权力,有可能有意或无意地摧毁整个人类文明。这种威胁可以以奥威尔小说《1984》中描绘的奥威尔式极权主义形式出现,也可以以赫胥黎小说《美丽新世界》中的反乌托邦形式出现,他在小说中说:“人们将开始热爱自己的压迫,热爱那些摧毁他们思考能力的技术。”
我们目前正在经历一种从一种存在形态向另一种存在形态的快速而深刻的转变,我们对于那些未能适应变化世界的物种所遭受的命运是非常清楚的——它们面临灭绝。因此,我们有必要全心全意地研究这些课题,通过沉浸在其中的探索中,我们获得了必要的知识和洞察力,以应对摆在我们面前的非凡之路。让我们通过本文“从文字到超越文字:大型语言模型简史”开始我们的探索之旅。
介绍
想象一下有一个聪明的朋友,他能理解你说的话,并以一种有意义的方式回应。语言模型就像这些聪明的朋友,只不过是以计算机程序的形式存在。它们使用先进的技术从大量的文本中学习,并在理解和生成语言方面变得非常出色。它们可以完成句子、翻译语言、回答问题,以及分析文本中的情感或情绪等任务。
起源:大型语言模型的崛起
研究早期语言模型很重要,因为它们为后来的进展奠定了基础。它们告诉我们更多关于语言的运作方式以及计算机如何从中学习。但它们无法完全理解人类语言的复杂性。它们使用不同的方法来理解单词和句子。
一种方法是使用规则,这些规则类似于处理语言的指令。这些规则由专家创建,告诉计算机如何分析和生成语言。但是这些基于规则的系统在处理人类语言的复杂性方面遇到困难,通常无法理解完整的含义。
另一种方法是使用统计,也就是从大量的语言示例中寻找模式。计算机会从这些模式中学习,并猜测接下来应该出现什么单词。虽然这种方法在处理某些语言复杂性方面更好,但在理解上下文和生成有意义的句子方面仍然存在局限性。
后来,出现了一种更先进的模型,它使用了新的技术,使其在理解和生成语言方面更加出色。这个新模型能够捕捉单词之间的联系,更有效地理解上下文。它被称为Transformer。
Transformer:语言模型的突破
当然,我们在这里讨论的不是大黄蜂,而是序列到序列问题中的深度学习模型,比如神经机器翻译。在早期的提案中,使用了编码器-解码器架构中的 RNN(循环神经网络)。然而,这些架构在向长序列中添加新元素时很难保留来自序列开始的信息。编码器的隐藏状态通常与输入句子中最近的单词相关联。因此,如果解码器仅依赖于最后一个隐藏状态,它将丢失有关初始元素的重要信息。为了解决这个限制,引入了注意力机制。
注意力机制不仅仅依赖于编码器的最后一个状态,还使解码器能够访问编码器的所有状态,从而捕捉整个输入序列的信息。这涉及提取过去编码器状态的加权和,使解码器能够在预测下一个输出元素时为每个输入元素分配重要性。然而,这种方法仍然有一个限制:每个序列必须逐个元素地进行处理。编码器和解码器都需要等待 t-1 步完成后才能处理第 t 步。因此,在处理大型数据集时,这种方法变得耗时且计算效率低下。
Transformer 模型利用自注意力机制提取每个单词的特征,确定其与句子中其他单词的重要性。与循环单元不同,这种特征提取涉及加权和激活,使其高度可并行化和高效。
这种注意力机制的应用是在论文“Attention is all you need”中引入的(Vaswani, Ashish & Shazeer, Noam & Parmar, Niki & Uszkoreit, Jakob & Jones, Llion & Gomez, Aidan & Kaiser, Lukasz & Polosukhin, Illia. (2017))[1]。这篇论文在使用注意力机制方面取得了重大突破,这是一个名为Transformer的模型的关键改进。
当前最著名的模型之一是由数十个Transformer组成的模型,其中GPT-2是其变种之一。
大型语言模型的前身
在这里,我们将探索两个有影响力的模型:Word2Vec和GloVe,它们在NLP中革命性地改变了单词表示。此外,我们还将深入研究递归神经网络(RNNs)及其处理序列数据的能力。让我们揭示这些模型的关键方面及其对语言处理领域的贡献。
- Word2Vec:这是一个2013年推出的流行模型。它将单词表示为高维空间中的稠密向量,捕捉单词的含义。通过在大量文本数据上进行训练,它学会了在给定目标词的情况下预测周围的单词。Word2Vec改变了自然语言处理中的单词表示,使我们更好地理解单词的含义。
- GloVe:这是在2014年推出的另一个有影响力的模型。它将单词表示为连续空间中的向量,并使用关于单词共现的全局统计信息。通过考虑单词的上下文,GloVe捕捉了语义和句法关系,增强了语言理解能力。
- 递归神经网络(RNNs):RNNs是一种处理句子等序列数据的神经网络。它们保持内部记忆以捕捉先前的信息。RNNs擅长根据输入序列生成相关的输出,但在处理长期依赖和把握广泛上下文方面存在困难。
它们展示了学习分布式单词表示、捕捉语义关系和建模序列数据的重要性。这为像GPT-3这样的先进大规模语言模型奠定了基础,推动了语言处理的边界。
大规模模型的演进
追溯大规模语言模型在时间线上的进展,从GPT-1到GPT-3以及更多。
- GPT-1(生成式预训练Transformer 1):2018年,OpenAI推出了GPT-1,这是一种基于Transformer的开创性大规模语言模型。它在大量的互联网文本数据上进行了训练,并展示出令人印象深刻的语言技能,在各种任务中表现出色。
- GPT-2(生成式预训练Transformer 2):2019年发布的GPT-2将大规模语言模型提升到了新的水平。凭借比GPT-1更大的数据集和 150亿 参数,它展示了出色的文本生成能力。尽管最初由于担忧而受到限制,OpenAI后来将完整模型公开给公众。
- GPT-3(生成式预训练Transformer 3):2020年发布的GPT-3代表了大规模语言建模的突破性进展。它成为迄今为止创建的最大模型之一,拥有 1750亿 参数。GPT-3展示了非凡的语言生成能力,并在各种任务中表现出色,从回答问题到生成代码和栩栩如生的对话。ChatGPT基于GPT-3架构。术语“ChatGPT”通常用来指代针对交互式对话和对话系统设计的GPT-3模型的特定实现。
此外,OpenAI的首席执行官Sam Altman在一次采访中确认,GPT-4将具有大约100万亿个参数。因此,这将是超级AGI发展的又一次巨大飞跃。
工作会受到影响吗?
嗯,我们毫不怀疑,人工智能领域的这次巨大飞跃将创造新的工作机会。但这是否意味着我们今天在世界各地看到的一些工作在明天可能不存在呢?
让我们看看Sam Altman在一次采访中对类似问题的回答。
“我认为,会受到巨大影响的一个大类别,我想我可以说,就是客户服务类别,相对很快地工作机会会大幅减少。我对此并不确定,但我可以相信。我想要明确的是,我认为这些系统会让很多工作消失。每一次技术革命都会如此。它们会改善许多工作,让它们变得更好、更有趣、更高薪,它们还会创造出我们很难想象的新工作,即使我们已经开始看到它们的最初迹象。
我认为,作为一个社会,我们对于是否想要更多工作还是更少工作感到困惑。当然,关于大多数人是否喜欢自己的工作并从中获得价值的问题也是如此。有些人确实喜欢自己的工作;我热爱我的工作,我猜你也是。那是一种真正的特权,不是每个人都能说得出来的。如果我们能够让更多的人从事更好的工作,并将工作转变为一个更广泛的概念,而不是为了生存而必须做的事情,而是作为一种创造性的表达方式,一种寻找满足和幸福的方式,以及其他方面的东西。即使这些工作与今天的工作看起来完全不同,我认为这是很好的。”
——Sam Altman,OpenAI首席执行官
所以,这基本上总结了我的文章。如果文章太长,对不起,希望你喜欢它。我们谈论了LLM的崛起,并见证了它们从“文字到超越文字”的旅程。有一件事我们可以确定,那就是这些模型每天都会以更快的速度不断改进。但这并不能保证它们不会以负面的方式影响我们的生活。会有新的工作出现,但现有的工作也将消失;我们将能够做到10倍以上的事情,但同时又会有10倍以上的任务等待我们去完成。只有一个真理,那就是这个世界将不再相同。