神经网络简史

神经网络演化史

神经网络是人工智能的基本构建单元,彻底改变了我们处理信息的方式,展示了科技未来的一瞥。这些复杂的计算系统以人脑的复杂性为灵感,对从图像识别和自然语言理解到自动驾驶和医学诊断等各种任务至关重要。通过探索神经网络的历史演变,我们将揭示它们的非凡之旅,以及它们如何塑造了现代人工智能的景观。

一切的起源

神经网络作为深度学习的基本组成部分,其概念根源可以追溯到人脑内复杂的生物神经网络。这个非凡的概念始于一个基本的类比,将生物神经元与计算网络进行了类比。

这个类比围绕着人脑展开,人脑由大约1000亿个神经元组成。每个神经元与其他神经元保持大约7000个突触连接,形成了一个复杂的神经网络,构成了人类的认知过程和决策。

单独地看,一个生物神经元通过一系列简单的电化学过程工作。它通过树突从其他神经元接收信号。当这些输入信号累积到一定水平(预设的阈值)时,神经元会被激活并沿着轴突发送电化学信号。这进而对其轴突末梢连接的神经元产生影响。这里需要注意的关键一点是,神经元的响应就像一个二元开关:它要么激活,要么保持沉默,没有中间状态。

人工神经网络虽然令人印象深刻,但与人脑的惊人细微之处和深奥复杂性相去甚远。尽管如此,它们在解决传统计算机难以处理但对人类认知直观的问题方面显示出显著的实力。一些例子包括基于历史数据的图像识别和预测分析。

现在我们已经探索了生物神经元如何运作以及它们对人工神经网络的启发原理,让我们一起追溯神经网络框架的演变,它们塑造了人工智能的景观。

前馈神经网络(FFNN)

前馈神经网络,通常被称为多层感知器,是一种基本类型的神经网络,其操作深深扎根于信息流、互连层和参数优化的原则。

在核心部分,FFNNs 协调了信息的单向传递之旅。一切始于包含 n 个神经元的输入层,数据最初在其中被摄入。该层作为网络的入口点,充当接收需要处理的输入特征的接收器。然后,数据通过网络的隐藏层进行转化之旅。

FFNNs 的一个重要方面是它们的连接结构,意味着每一层中的每个神经元都与该层中的每个神经元密切相连。这种相互连接性允许网络执行计算并捕获数据内部的关系。就像一个通信网络,其中每个节点在处理信息中发挥作用。

随着数据通过隐藏层传递,它经历一系列计算。隐藏层中的每个神经元接收来自前一层的所有神经元的输入,对这些输入进行加权求和,添加偏置项,然后通过激活函数(常见的有ReLU,Sigmoid或tanH)将结果传递。这些数学运算使网络能够从输入中提取相关模式,并捕获数据中的复杂非线性关系。与更浅层的机器学习模型相比,FFNNs 在此方面真正卓越。

然而,这还不是全部。FFNNs 的真正力量在于其适应能力。在训练过程中,网络会调整其权重,以最小化其预测值与实际目标值之间的差异。这个迭代过程通常基于诸如梯度下降之类的优化算法,被称为反向传播。反向传播使 FFNNs 能够从数据中学习,并提高其在进行预测或分类中的准确性。

虽然前馈神经网络(FFNNs)功能强大且多才多艺,但它们显示出一些相关的限制。例如,它们无法捕捉数据中的顺序性和时间/句法依赖性-这对语言处理和时间序列分析任务来说是至关重要的两个方面。为了克服这些限制,迫使了一种新型神经网络架构的演进。这一转变为递归神经网络(RNNs)铺平了道路,RNNs引入了反馈循环的概念,以更好地处理顺序数据。

 

RNN和LSTM – 递归神经网络和长短期记忆

 

在核心层面上,RNNs与FFNNs存在某些相似之处。它们也由相互连接的节点层组成,处理数据以进行预测或分类。然而,它们的关键差异在于处理顺序数据和捕捉时间依赖性的能力。

在FFNN中,信息沿着一条单向路径从输入层流向输出层。这适用于数据顺序无关紧要的任务。然而,在处理时间序列数据、语言或语音等序列时,保持上下文并理解数据的顺序是至关重要的。这就是RNNs的优势所在。

RNNs引入了反馈循环的概念。这类似于“记忆”,它允许网络保持一个隐藏状态,用于捕捉先前输入的信息,并影响当前输入和输出。而传统的神经网络假设输入和输出彼此独立,而递归神经网络的输出取决于序列中之前的元素。这种递归连接机制使得RNNs特别适合通过“记忆”过去信息来处理序列。

递归网络的另一个特点是,它们在网络的每一层中共享相同的权重参数,并通过时间反向传播(BPTT)算法进行调整,与传统反向传播略有不同,它专门适用于序列数据。

  

然而,传统的RNNs也有它们的局限性。虽然从理论上讲它们应该能够捕捉到长程依赖性,但实际上它们很难有效地实现,并且甚至可能遭受梯度消失问题,这会阻碍它们在许多时间步骤上学习和记忆信息的能力。

这就是长短期记忆(LSTM)单元发挥作用的地方。它们专门设计来处理这些问题,通过在其结构中引入三个门:遗忘门、输入门和输出门。

  • 遗忘门:该门决定应该舍弃或忘记当前时间步骤的哪些信息。通过检查细胞状态和当前输入,它确定哪些信息对于当前进行预测是不相关的。
  • 输入门:该门负责将信息合并到细胞状态中。它同时考虑输入和上一个细胞状态,以决定应该添加哪些新信息来改善其状态。
  • 输出门:该门决定LSTM单元将生成什么输出。它同时考虑当前输入和更新后的细胞状态,生成可用于预测或传递到时间步骤的输出。

  

 

总之,RNNs,尤其是LSTM单元,专为顺序数据而设计,使其能够保持记忆并捕捉时间依赖性,这对于自然语言处理、语音识别和时间序列预测等任务来说是至关重要的能力。

随着我们从RNNs捕捉顺序依赖性的转变,演进继续下去,出现了卷积神经网络(CNNs)。与RNNs不同,CNNs在从结构化网格数据中进行空间特征提取方面表现出色,使其非常适合图像和模式识别任务。这种转变反映了神经网络在不同数据类型和结构中的多样应用。

 

CNN – 卷积神经网络

 

CNNs是一类特殊的神经网络,非常适合处理图像数据,例如2D图像甚至3D视频数据。它们的架构依赖于至少一个卷积层的多层前馈神经网络。

卷积神经网络(CNN)的独特之处在于它们的网络连接性和特征提取方法,使其能够自动识别数据中的相关模式。与传统的全连接前馈神经网络(FFNN)不同,CNN采用了一个被称为卷积核或滤波器的滑动窗口。这个滑动窗口扫描输入数据,特别适用于空间关系很重要的任务,比如在图像中识别对象或在视频中跟踪运动。当卷积核沿着图像移动时,进行卷积操作(从严格数学的角度来看,这个操作是互相关),并且应用非线性激活函数,通常是ReLU。如果特征在图像块中,将产生一个高值,如果不在,则产生一个小值。

与卷积核一起,添加和微调超参数,比如步长(即我们滑动卷积核的像素数)和膨胀率(即每个卷积核单元之间的间隔),使得网络可以专注于特定特征,识别特定区域的模式和细节,而不考虑整个输入。

步长为2的卷积操作(由Sumit Saha提供的GIF)。

一些卷积核可能专门用于检测边缘或角落,而其他卷积核可能被调整来识别更复杂的对象,比如猫、狗或街道标志。通过堆叠多个卷积和池化层,CNN逐渐建立起输入的分层表示,从低级到高级逐渐抽象特征,就像我们的大脑处理视觉信息一样。

用于二进制图像分类(猫与狗)的CNN的示例KNIME工作流。上部分使用一系列卷积层和最大池化层来定义网络结构,以从图像中进行自动特征提取。然后使用展平层将提取的特征准备为适用于全连接前馈神经网络进行二进制分类的一维输入。

虽然CNN在特征提取方面表现出色,并且已经改变了计算机视觉任务,但它们只是作为被动观察者,因为它们并不设计生成新的数据或内容。这不是网络本身的固有局限,但一辆没有燃料的强大引擎是无用的。的确,真实和有意义的图像和视频数据往往难以收集并且昂贵,并且往往面临版权和数据隐私限制。这种限制促使了一种新的范式的发展,该范式基于CNN,但从图像分类跃向创造性综合:生成对抗网络(GANs)。

GAN – 生成对抗网络

GAN是一类特殊的神经网络,其主要但不仅限于生成与给定真实数据集非常相似的合成数据。与大多数神经网络不同,GAN具有巧妙的架构设计,由两个核心模型组成:

  • 生成器模型:这个神经网络二重奏中的第一个角色是生成器模型。这个组件的任务是非常有趣的:给定随机噪声或输入向量,它努力创建尽可能接近真实样本的人工样本。想象一下它是一个艺术伪造者,企图制作出与名作难以区分的绘画。
  • 判别器模型:充当对手角色的是判别器模型。它的任务是区分生成器生成的样本和来自原始数据集的真实样本。将其视为一个艺术鉴赏家,试图在真实艺术品中发现伪造品。

现在,魔术就在这里发生:GAN进行持续的对抗式舞蹈。生成器力求改善自己的艺术性,不断调整其创作,以使其更具说服力。与此同时,判别器成为一个更敏锐的侦探,不断提高其识别真假的能力。

GAN的架构(图片作者提供)。

随着训练的进行,生成器和判别器之间的这种动态互动导致了一个令人着迷的结果。生成器努力生成如此逼真的样本,以至于连判别器也无法将其与真实样本区分开来。这种竞争驱使两个组件不断改进自己的能力。

结果如何呢?这个生成器变得惊人地擅长生成看起来像真实的数据,无论是图像、音乐还是文字。这种能力在各个领域都带来了非凡的应用,包括图像合成、数据增强、图像对图像翻译和图像编辑。

 以生成合成图像(例如动物、人脸和辛普森人物)为例,使用 GAN(生成对抗网络)的 KNIME 工作流示例。

GAN 开创了通过将生成器与鉴别器对抗来创造逼真图像和视频内容的先河。从图像到序列数据的需求推动了更复杂的自然语言理解、机器翻译和文本生成模型的引入。这促进了 Transformer 的发展,这是一个非凡的深度神经网络架构,不仅可以更好地捕捉远距离语言依赖和语义上下文,而且也成为最新的人工智能应用的无可争议的基础。

 

Transformer

 

Transformer 在 2017 年开发,拥有一个独特的特征,它可以取代传统的循环层:一种自注意机制,允许模型建模文档中所有单词之间的复杂关系,无论其位置如何。这使得 Transformer 在处理自然语言中的长距离依赖挑战方面表现出色。Transformer 架构由两个主要构建块组成:

  • 编码器。在这里,输入序列经过向量化处理,然后暴露给自注意机制。自注意机制计算每个令牌的注意力分数,确定其与其他令牌的重要性。这些分数被用来创建加权和,然后传入前馈神经网络,为每个令牌生成上下文感知的表示。多个编码器层重复此过程,增强模型捕捉层次结构和上下文信息的能力。
  • 解码器。这个模块负责生成输出序列,并且其工作过程与编码器类似。它能够在每个步骤中正确地聚焦于并理解编码器的输出和自己的过去令牌,通过考虑输入上下文和先前生成的输出来进行准确的生成。

 Transformer 模型架构(图片 来源:Vaswani 等人,2017)。

考虑一下这个句子:”I arrived at the bank after crossing the river”。单词 “bank” 可以有两种意思,即金融机构或河边。这就是 Transformer 的优势所在。它们可以迅速关注单词 “river”,通过将 “bank” 与句子中的每个其他单词进行比较并分配注意力分数来消除 “bank” 的歧义。这些分数确定了每个单词对 “bank” 的下一个表示的影响力。在这种情况下,”river” 获得了更高的分数,有效地澄清了所期望的含义。

为了达到这种效果,Transformer 依赖于数百万可训练参数,并且需要大规模的文本语料库和复杂的训练策略。Transformer 中使用的一个值得注意的训练方法是被遮盖的语言建模(MLM)。在训练过程中,输入序列中的特定令牌被随机遮盖,模型的目标是准确预测这些遮盖的令牌。这种策略鼓励模型把握词汇之间的上下文关系,因为它必须依赖周围的单词进行准确的预测。这种方法由 BERT 模型广泛应用,并且在各种自然语言处理任务中取得了最先进的结果。

自回归建模是 Transformer 的另一种替代 MLM 的方法。在这种方法中,模型在每次生成单词时,都会依赖先前生成的单词进行预测。类似 GPT(生成预训练 Transformer)的自回归模型遵循这种方法,并在需要单向预测下一个最合适单词的任务(如自由文本生成、问题回答和文本补充)上表现出色。

此外,为了弥补对大量文本资源的需求,Transformer 在并行化方面表现出色,意味着它们在训练过程中可以比传统的顺序方法(如 RNN 或 LSTM 单元)更快地处理数据。这种高效的计算减少了训练时间,并在自然语言处理、机器翻译等领域取得了突破性的应用。

2018 年,Google 开发的一个重要的 Transformer 模型是 BERT(Bidirectional Encoder Representations from Transformers)。BERT 依靠 MLM 训练,并引入了双向上下文的概念,即在预测遮盖的令牌时同时考虑其左右上下文。这种双向方法极大地提升了该模型对词汇意义和上下文细微差别的理解,为自然语言理解和各种下游 NLP 任务建立了新的基准。

BERT多类情感预测(积极,消极,中性)的KNIME工作流示例 。进行了最小限度的预处理,并利用经过微调的预训练BERT模型。

在引入强大的自注意机制的Transformers之后,对应用程序的多功能性以及执行复杂的自然语言任务(如文档摘要,文本编辑或代码生成)的需求日益增长,促使了大语言模型的发展。这些模型利用了数十亿个参数的深度神经网络,在这些任务中具有卓越的性能,并满足了数据分析行业不断发展的要求。

LLM – 大语言模型

大语言模型(LLM)是一类革命性的多用途和多模态(接受图像,音频和文本输入)的深度神经网络,近年来引起了重大关注。形容词“大”源自它们巨大的规模,因为它们包含数十亿个可训练的参数。其中一些最著名的例子包括OpenAI的ChatGPT、Google的Bard或Meta的LLaMa。

LLM的独特之处在于它们处理和生成类似于人类的文本的无与伦比的能力和灵活性。它们在自然语言理解和生成任务方面表现出色,包括文本补全、翻译、问答和内容摘要等。它们的成功关键在于它们在大规模文本语料库上的广泛训练,使它们能够捕捉语言细微差别、语境和语义的丰富理解。

这些模型采用深度神经网络结构,具有多层自注意机制,使其能够在给定上下文中权衡不同单词和短语的重要性。这种动态适应性使它们在处理各种类型的输入、理解复杂的语言结构并基于人类定义的提示生成输出方面非常精通。

使用OpenAI的ChatGPT和带有自定义文档的向量存储创建AI助手的KNIME工作流示例,用于回答特定领域的问题。

LLM为各个行业提供了大量应用的机会,包括医疗保健、金融、娱乐和客户服务等领域。它们甚至在创作和讲故事方面开辟了新的边界。

然而,由于巨大的体积、资源密集型的训练过程以及生成内容可能产生的版权问题,它们也引发了对道德使用、环境影响和可访问性的关注。最后,尽管不断改进,LLM可能仍存在一些严重缺陷,例如“产生幻觉”错误事实、带有偏见、易轻信或被诱导产生有害内容。

有尽头吗?

从神经网络的起步到大语言模型的兴起,引发了一个深刻的哲学问题:这个旅程是否会终结?

科技的发展轨迹始终以无止境的进步为标志。每一个里程碑只是通往下一个创新的垫脚石。在努力创造可以复制人类认知和理解能力的机器时,人们很容易思考是否有一个最终目的地,一个我们说:“这就是,我们已经达到了顶峰。”的点。

然而,人类好奇心的本质和自然世界的无限复杂性表明不然。就像我们对宇宙的理解不断加深一样,发展更智能、能力更强、更有道德的神经网络的追求可能是永无止境的旅程。神经网络演进过程的演示(作者提供的图片)。

神经网络是人工智能的基本构建模块,它们彻底改变了我们处理信息的方式,展示了技术未来的前景。这些由人脑复杂性启发的复杂计算系统,在图像识别、自然语言理解、自动驾驶和医疗诊断等任务中变得至关重要。通过探索神经网络的历史演变,我们将揭示它们如何演变成塑造人工智能现代领域的关键要素。

一切是如何开始的?

神经网络,深度学习的基本组成部分,其概念根源于人脑中复杂的生物网络。这个令人惊叹的概念从一个基本的类比开始,将生物神经元和计算网络进行了类比。

这个类比围绕大约1000亿个神经元组成的大脑展开。每个神经元与其他神经元保持约7000个突触连接,形成复杂的神经网络,构成了人类的认知过程和决策。

就个体而言,生物神经元通过一系列简单的电化学过程运作。它通过树突接收来自其他神经元的信号。当这些输入信号累积到一定水平(预设阈值)时,神经元将开启并沿着轴突发送电化学信号。进而影响与其轴突末梢相连的神经元。需要注意的关键一点是,神经元的响应类似于二进制开关:它要么发射(激活),要么保持沉默,没有任何中间状态。

生物神经元是人工神经网络的灵感来源(图片:Wikipedia)。

人工神经网络虽然令人印象深刻,但远远无法接近人脑的惊人复杂性。尽管如此,它们在解决对传统计算机而言具有挑战性但对人类认知而言显得直观的问题方面表现出了显著的能力。其中一些例子是基于历史数据的图像识别和预测分析。

现在,我们已经探讨了生物神经元功能的基本原理以及它们对人工神经网络的灵感,让我们一起走进塑造人工智能领域的神经网络框架的演变历程。

FFNN – 前馈神经网络

前馈神经网络,通常称为多层感知机,是一种基础型神经网络,其运作深深根植于信息流动、相互连接的层和参数优化的原则。

在核心技术中,前馈神经网络编排了信息的单向传递。一切都始于包含n个神经元的输入层,那里最初摄入数据。这一层作为网络的入口,充当处理需要处理的输入特征的接收器。从那里,数据通过网络的隐藏层进行变换之旅。

FFNN的一个重要方面是其连接结构,这意味着每个层中的每个神经元都与该层中的每个神经元密切连接。这种相互连接使网络能够执行计算并捕获数据内的关系。就像一个通信网络,每个节点在处理信息中发挥作用。

随着数据通过隐藏层传递,它经历一系列计算。隐藏层中的每个神经元从前一层的所有神经元接收输入信号,对这些输入信号进行加权求和,加上偏置项,然后将结果通过激活函数(通常是ReLU、Sigmoid或tanH)进行传递。这些数学运算使网络能够从输入中提取相关模式,并捕捉数据中的复杂非线性关系。这是FFNN在与更浅层的机器学习模型相比的真正优势所在。

完全连接前馈神经网络的结构(图片作者提供)。

然而,FFNN的真正力量不仅仅体现在此。它们真正的优势在于其适应性。在训练过程中,网络会调整权重以尽量减少其预测值与实际目标值之间的差异。这个迭代过程通常基于梯度下降等优化算法,称为反向传播。反向传播使得FFNN能够真正地从数据中学习,并提高其在进行预测或分类时的准确性。

例如,FFNN用于二分类(通过/失败)的KNIME工作流程示例。在上部分,我们可以看到网络结构,它由一个输入层、一个完全连接的带有tanH激活函数的隐藏层和一个使用Sigmoid激活函数的输出层组成(图片作者提供)。

尽管强大而多功能,FFNN也有一些相关限制。例如,它们不能捕捉数据中的序列和时间/句法依赖关系,这对于语言处理和时间序列分析等任务来说是至关重要的。为了克服这些限制,迎来了一种新型神经网络架构的发展。这个过渡为循环神经网络(RNN)铺平了道路,它引入了反馈循环的概念,以更好地处理顺序数据。

RNN和LSTM – 循环神经网络和长短期记忆

RNN在核心技术上与FFNN有一些相似之处。它们也由相互连接的节点层组成,进行处理以进行预测或分类。然而,它们的关键区别在于它们处理顺序数据和捕捉时间依赖性的能力。

在FFNN中,信息沿着单一的、单向的路径从输入层流向输出层。这适用于那些数据顺序不太重要的任务。然而,当处理时间序列数据、语言或语音等序列数据时,保持上下文并理解数据的顺序就至关重要。这就是RNN的优点所在。

RNN引入了反馈循环的概念。这些循环像一种“记忆”,允许网络保持一个隐藏状态,其中包含有关先前输入的信息,并影响当前的输入和输出。传统神经网络认为输入和输出是相互独立的,而循环神经网络的输出取决于序列中的先前元素。这种循环连接机制使RNN特别适合通过“记住”过去的信息来处理序列。

循环网络的另一个独特特点是它们在网络的每个层中共享相同的权重参数,这些权重通过时间反向传播(BPTT)算法进行调整,该算法与传统的反向传播略有不同,它专门针对序列数据。

RNN的展开表示,每个输入都包含来自前一个输入的上下文信息。颜色表示上下文信息的传播(图片作者)。

然而,传统RNN也存在局限性。虽然在理论上它们应该能够捕捉到长期依赖关系,但实际上它们很难有效地做到这一点,甚至可能遭受消失梯度问题,这会影响它们在许多时间步长上学习和记忆信息的能力。

这就是长短期记忆(LSTM)单元发挥作用的地方。它们专门设计用来解决这些问题,通过将三个门机制整合到它们的结构中:遗忘门、输入门和输出门。

  • 遗忘门:这个门决定了在时间步骤中应该丢弃或遗忘哪些信息。通过检查单元状态和当前输入,它确定哪些信息对于当前的预测是不相关的。
  • 输入门:这个门负责将信息合并到单元状态中。它同时考虑输入和先前的单元状态,决定应该添加哪些新信息来增强它的状态。
  • 输出门:这个门确定LSTM单元将生成什么输出。它同时考虑当前的输入和更新后的单元状态,产生一个可用于预测或传递给时间步长的输出。

长短期记忆单元的可视化表示(作者:Christopher Olah)。

RNN中使用LSTM单元的示例KNIME工作流,用于多类情感预测(积极、消极、中性)。上部分定义了网络架构,使用一个输入层来处理不同长度的字符串,一个嵌入层,一个具有多个单元的LSTM层,以及一个具有Softmax激活函数的全连接输出层返回预测。

总之,RNN,特别是LSTM单元,专为顺序数据量身定制,使其能够保持记忆并捕捉时间上的依赖关系,这对于自然语言处理、语音识别和时间序列预测等任务至关重要。

随着从RNN捕捉顺序依赖关系的转变,进化以卷积神经网络(CNN)为代表。与RNN不同,CNN擅长从结构化的类似网格的数据中提取空间特征,使其非常适合图像和模式识别任务。这种转变反映了神经网络在不同数据类型和结构上的多样化应用。

CNN – 卷积神经网络

卷积神经网络是一种特殊类型的神经网络,非常适用于处理图像数据,如2D图像甚至3D视频数据。它们的架构基于至少一个卷积层的多层前馈神经网络。

CNN之所以突出的原因在于它们的网络连接方式和特征提取方式,使得它们能够自动识别数据中的相关模式。与传统的FFNN不同,传统的FFNN将一个层中的每个神经元与下一层中的每个神经元相连接,CNN采用了一个称为卷积核或过滤器的滑动窗口。滑动窗口扫描输入数据,并在空间关系很重要的任务中特别强大,例如在图像中识别物体或在视频中跟踪运动。当卷积核在图像上移动时,卷积运算在卷积核和像素值之间进行(从严格的数学角度来看,这个操作是一个互相关),然后应用非线性激活函数(通常是ReLU)。如果特征在图像块中存在则产生较大的值,否则产生较小的值。

随着核心部分的加入和超参数的微调,如步幅(即滑动核的像素数)和空洞率(即每个核单元之间的间隔),网络可以专注于特定特征,在特定区域识别模式和细节,而无需同时考虑整个输入。

步幅为2的卷积操作(由Sumit Saha的GIF)。

一些核可能专门用于检测边缘或角点,而其他核可能被调整为在图像中识别更复杂的对象,如猫、狗或街道标志。通过堆叠多个卷积和池化层,CNN构建了输入的分层表示,逐渐抽象出从低级到高级的特征,就像我们的大脑处理视觉信息一样。

用于二进制图像分类(猫与狗)的CNN的示例KNIME工作流。上层分支使用一系列卷积层和最大池化层定义了网络架构,用于从图像中自动提取特征。然后使用展平层将提取的特征准备为一维输入,以便FFNN进行二进制分类。

虽然CNN在特征提取方面表现出色,并且已经在计算机视觉任务中产生了革命性的影响,但它们可以被视为被动观察者,因为它们并不设计生成新数据或内容。这并不是网络本身的固有限制,但是一台强大的引擎没有燃料会变得无用。事实上,真实而有意义的图像和视频数据往往很难收集,成本很高,并且面临着版权和数据隐私限制。这种限制导致了一种新的范式的发展,该范式建立在CNN基础上,但从图像分类跃迁到创造性的合成:生成对抗网络(GANs)。

GAN – 生成对抗网络

GAN是一类特殊的神经网络,其主要目标(但不是唯一目标)是生成与给定真实数据集紧密相似的合成数据。与大多数神经网络不同,GAN拥有巧妙的架构设计,包括两个核心模型:

  • 生成器模型:这个神经网络二重奏的第一位成员是生成器模型。该组件的任务是非常有趣的:给定随机噪声或输入向量,它致力于创造尽可能接近真实样本的人工样本。可以将其想象为一位艺术赝品制作人,试图制作出与名作难以区分的绘画。
  • 判别器模型:扮演对手角色的是判别器模型。它的工作是区分由生成器生成的样本与原始数据集中的真实样本。可以将其视为艺术鉴赏家,试图在真实的艺术品中发现伪造品。

现在,魔法就在于此:GAN进行着持续的对抗之舞。生成器旨在改善其艺术性,不断微调其创作以变得更加令人信服。同时,判别器成为更敏锐的侦探,磨砺其识别真假的能力。

GAN架构(作者的图片)。

随着训练的进行,生成器和判别器之间的这种动态相互作用导致了一个令人着迷的结果。生成器努力生成的样本非常逼真,以至于判别器无法将它们与真实样本区分开。这种竞争驱使两个组件不断改进自己的能力。

结果呢?一个生成器变得非常擅长产生看起来真实的数据,无论是图像、音乐还是文本。这种能力在各个领域中都有了显著的应用,包括图像合成、数据增强、图像到图像的翻译和图像编辑。

GAN的示例KNIME工作流,用于生成合成图像(例如动物、人脸和辛普森人物)。

GAN通过将生成器与判别器对抗,开创了逼真的图像和视频内容创作。从图像到序列数据的创造性需求扩展,引入了更复杂的自然语言理解、机器翻译和文本生成模型。这使得变压器成为一种杰出的深度神经网络架构,它不仅在有效捕捉长距离语言依赖性和语义上下文方面胜过以前的架构,而且成为最新的基于AI的应用的无可争议的基础。

变压器

2017年开发的变形金刚拥有一个独特的特点,可以取代传统的循环层:一种自我注意机制,使其能够模拟文档中所有单词之间的复杂关系,而不考虑它们的位置。这使得变形金刚极其擅长处理自然语言中的长期依赖性挑战。Transformer架构由两个主要构建块组成:

  • 编码器。在这里,输入序列被嵌入到向量中,然后暴露给自我注意机制。后者为每个标记计算注意力分数,确定其与其他标记的重要性。这些分数用于创建加权求和,然后通过FFNN生成每个标记的上下文感知表示。多个编码器层重复此过程,增强了模型捕获层次结构和上下文信息的能力。
  • 解码器。该模块负责生成输出序列,并遵循与编码器类似的过程。它能够在每个步骤中将适当的重点放在并理解编码器的输出和自己的过去标记,通过同时考虑输入上下文和先前生成的输出来确保准确生成。

Transformer模型架构(图片作者:Vaswani等,2017年)。

考虑以下句子:“我越过河流到达银行”。词语“银行”可以有两个意思 – 金融机构或河流的边缘。这就是变形金刚的优势所在。它们可以迅速关注词语“河流”,通过将“银行”与句子中的每个其他词进行比较并分配注意力分数来消除“银行”的歧义。这些分数确定了每个词对“银行”的下一个表示的影响。在这种情况下,“河流”获得了更高的分数,有效地澄清了意图。

为了达到这样的效果,变形金刚依赖于数百万可训练参数,需要大规模的文本语料库和复杂的训练策略。变形金刚常用的一种训练方法是掩码语言模型(MLM)。在训练过程中,输入序列中的特定标记被随机屏蔽,模型的目标是准确预测这些被屏蔽的标记。这种策略鼓励模型掌握单词之间的上下文关系,因为它必须依赖周围的词语来进行准确预测。这种方法由BERT模型推广,对于在各种自然语言处理任务中取得最新成果至关重要。

变形金刚的替代方法是自回归建模。在这种方法中,模型被训练一次生成一个词,同时依赖于先前生成的词。自回归模型(如GPT(生成预训练变形金刚))遵循这种方法,并在需要单向预测下一个最合适的词的任务(如自由文本生成,问答和文本补全)中表现出色。

此外,为了弥补对大量文本资源的需求,变形金刚在并行化方面表现出色,这意味着它们可以比传统的顺序处理方法(如RNN或LSTM单元)更快地处理训练数据。这种有效的计算减少了训练时间,并在自然语言处理、机器翻译等领域取得了突破性应用。

Google于2018年开发的关键变形金刚模型BERT(双向编码器表示变形金刚)产生了重大影响。BERT依赖于MLM训练,并引入了双向上下文的概念,即在预测被屏蔽的标记时,考虑了一个词的左右上下文。这种双向方法显著增强了模型对词义和上下文细微差别的理解,为自然语言理解和各种下游NLP任务树立了新的基准。

BERT用于多类别情感预测(积极,消极,中性)的示例KNIME工作流程。只进行了最小的预处理,并利用了预训练的BERT模型进行微调。

在引入了强大的自我注意机制的变形金刚之后,对应用的多样性和执行复杂的自然语言任务(例如文档摘要,文本编辑或代码生成)的需求,促使了大型语言模型的发展。这些模型利用拥有数十亿参数的深度神经网络在此类任务中表现出色,并满足了数据分析行业不断发展的需求。

 

LLM – 大型语言模型

 

大型语言模型(LLMs)是一类革命性的多用途和多模态(接受图像、音频和文本输入)深度神经网络,近年来引起了广泛关注。形容词“大型”来源于它们的庞大规模,因为它们包含数十亿个可训练参数。其中一些最著名的例子包括OpenAI的ChatGPT,Google的Bard或Meta的LLaMa。

LLMs的独特之处在于它们无与伦比的处理和生成类似人类文本的能力和灵活性。它们在自然语言理解和生成任务方面表现出色,范围包括文本补全和翻译、问题回答和内容摘要。它们成功的关键在于在大规模文本语料库上进行的广泛训练,使它们能够捕捉到丰富的语言细微差别、上下文和语义的理解。

这些模型采用了深度神经网络架构,具有多层自注意机制,使它们能够权衡给定上下文中不同单词和短语的重要性。这种动态适应性使它们在处理各种类型的输入、理解复杂的语言结构以及基于人类定义的提示生成输出方面异常熟练。

示例KNIME工作流程,创建一个依赖于OpenAI的ChatGPT和一个包含自定义文档的向量库来回答领域特定问题的AI助手。

LLMs为各个行业的多种应用铺平了道路,从 healthcare 和 finance 到 entertainment 和 customer service。它们甚至在创意写作和故事讲述方面开辟了新的领域。

然而,它们巨大的体积、资源密集的训练过程以及生成内容可能涉及侵犯版权的问题,也引起了对于道德使用、环境影响和可访问性的关注。最后,尽管越来越强大,LLMs可能存在一些严重的缺陷,例如“产生幻觉”错误事实、存在偏见、易受影响或易于生成有害内容。

有没有终点?

神经网络的演变,从它们谦逊的开端到大规模语言模型的兴起,引发了一个重要的哲学问题:这个旅程是否会有终点?

技术的轨迹一直以无休止的进步为标志。每一个里程碑只是下一个创新的垫脚石。当我们努力创造可以复制人类认知和理解的机器时,我们很容易思考是否存在一个终极目标,一个我们可以说:“就这样了;我们已经达到了巅峰。”的时刻。

然而,人类好奇心的本质和自然世界的无限复杂性表明,情况可能并非如此。正如我们对宇宙的理解不断加深一样,发展更智能、能力更强和道德更高的神经网络的追求可能是一种无止境的旅程。

Anil 是 KNIME 的数据科学传道者。