忘掉32K的GPT4:LongNet拥有亿级标记上下文
LongNet拥有亿级标记上下文
厌倦了GPT-3和GPT-4的2048、4096和32768个标记上下文的限制吗?微软可能有一个对你有益的答案
7月19日,微软发表了一篇被认为是在开发能够具有实际上无限上下文长度的大型语言模型的架构方面迈出的重要一步的论文。微软提出并开发了一种Transformer模型,理论上可以扩展到十亿个标记。这消除了大型语言模型在实际使用案例中的主要障碍,也被称为“上下文长度限制”。
在本文中,我们将逐步介绍:
- 大型语言模型(LLMs)
- 记住我!上下文很重要
- 如何实现更大的上下文
- 当前的LLMs网络
- 扩展的困难
- 微软的解决方案LongNet
- 分布式训练器
- 扩展到10亿个标记的结果和验证
- 总结思考
那么,让我们开始吧。
大型语言模型(LLMs)
大型语言模型是深度学习模型,具有数百万甚至数十亿个参数。这些模型通常在互联网上的“通用文本”语料库上进行训练。这样的语料库可能有兆级标记(即,如果它存在于互联网上,该文本被用于训练大型语言模型)。
想象一个大矩阵,其中每个单词与给定字符串中的每个单词相连。简单来说,这就是自注意力。我们关心具有更强关系的单词或单词的位置,因为它们比较弱关系更能预测下一个单词。一个关系可能深入到3层或30层,对于整个架构来说并不重要。重要的是自注意力(至少在某种程度上)决定了下一个标记。标记是一个单词或一个单词的一部分,通常用作句子的一个功能单元的同义词。
因此,大型语言模型创建了一个语言地图,给定输入文本,基于该地图生成输出。该地图非常复杂。这个地图通常由……