BERT vs GPT:比较自然语言处理巨头

BERT vs GPT A Comparison of Natural Language Processing Giants

它们的结构有多大不同,这些差异又如何影响模型的能力?

作者使用稳定扩散生成的图像。

2018年,自然语言处理(NLP)研究人员对BERT论文[1]感到惊讶。这种方法简单,但结果令人印象深刻:它为11个NLP任务设立了新的基准。

一年多的时间里,BERT已成为自然语言处理(NLP)实验中无处不在的基准,已有150多篇研究出版物对该模型进行了分析和改进[2]。

2022年,ChatGPT[3]凭借其生成类似人类回应的能力,引爆了整个互联网。该模型能够理解各种话题,并能够自然地进行长时间的对话,这使其与所有传统的聊天机器人区别开来。

BERT和ChatGPT是NLP领域的重大突破,但它们的方法不同。它们的结构有何不同,又如何影响模型的能力?让我们深入研究一下!

注意力

我们必须首先回顾常用的注意力机制,以充分理解模型的结构。注意力机制旨在捕捉和建模序列中标记之间的关系,这是它们在NLP任务中取得成功的原因之一。

直观理解

  • 想象一下你有n个存储在盒子v1, v2,…,v_n中的商品。这些称为“值”。
  • 我们有一个查询q,它要求从每个盒子中取出一些合适数量的商品。让我们称之为w_1, w_2,..,w_n(这是“注意权重”)
  • 如何确定w_1, w_2,.., w_n?换句话说,如何知道在v_1,v_2, ..,v_n,中哪些应该比其他的拿得更多?
  • 记住,所有的值都存储在我们无法窥视的盒子中。所以我们不能直接判断v_i应该拿得少还是多。
  • 幸运的是,每个盒子上都有一个标签k_1, k_2,…,k_n,称为“键”。这些“键”代表了盒子内物品的特征。
  • 根据qk_i(q*k_i)的“相似性”,我们可以决定v_i的重要性(w_i)以及我们应该取多少v_iw_i*v_i)。