麻省理工学院和香港中文大学的研究人员提出了LongLoRA(长期低秩适应):一种用于长上下文大语言模型(LLMs)的高效微调AI方法
长上下文大语言模型(LLMs)的高效微调AI方法:麻省理工学院与香港中文大学研究人员开发的LongLoRA
大型语言模型(LLMs)的引入对人工智能领域带来了显著的进展。基于自然语言处理(NLP)、自然语言理解(NLU)和自然语言生成(NLG)的概念,LLMs以其令人难以置信的能力征服了世界。著名的模型,如LLaMA和LLaMA2,已经成为理解和生成自然语言的非常有效的工具。
然而,它们设置了一些限制,比如LLaMA的最大上下文大小为2048个令牌,而LLaMA2为4096个令牌。由于这个限制,它们难以执行需要处理长文档或长查询的任务。训练或完善具有更长序列的LLMs是一种扩展上下文窗口的方法,但是这会带来计算难题,并且可能会非常昂贵。
低秩适应(LoRA)是一种扩展上下文窗口的简单方法。LoRA使用计算效率高、限制可训练参数数量的低秩矩阵来修改自注意力块中的线性投影层。然而,根据经验研究,只使用简单的低秩适应训练长上下文模型似乎并不是非常有效。由于典型的自注意机制,它对扩展的上下文扩展产生了显著的困惑,并且随着上下文大小的增加失去了效果。
为了克服这些限制,一个研究团队提出了LongLoRA,一种有效的微调方法,用于扩展预训练大型语言模型的上下文大小,而不会产生过多的计算成本。LongLoRA已经开发出来,可以有效地增加像LLaMA2这样的预训练LLMs的上下文窗口。它以两种重要的方式加速了LLMs扩展上下文的过程。
首先,LongLoRA通过利用Shift Short Attention (S2-Attn)实现了有效的上下文扩展。LLMs在推理过程中仍然需要稠密的全局注意力来表现良好,但是通过使用稀疏的局部注意力,可以有效快速地进行微调过程。与使用传统注意力技术进行微调相比,S2-Attn实现了上下文扩展,并且带来了显着的计算节省,因为它可以轻松集成,是推理的可选部分,因为只需要两行代码来在训练期间实施。
其次,LongLoRA重新考虑了微调过程,重点关注参数有效的上下文扩展技术。团队发现,只要模型具有可训练的嵌入和归一化层,LoRA在上下文扩展方面表现出色。这个认识对于在不显著增加计算负担的情况下成功扩展上下文非常重要。
在LLaMA2的大小范围从7B/13B到70B的模型上,LongLoRA为各种任务提供了值得注意的实证结果。在单个8 x A100 GPU计算机上,该方法将这些模型的上下文从4k令牌扩展到LLaMA2 7B的100k令牌,或者扩展到LLaMA2 70B的32k令牌。它在保持原始模型结构的同时进行了上下文的扩展,使其与已经使用的方法和工具(如FlashAttention-2)兼容。
为了辅助LongLoRA的实际使用,还开发了一个名为LongQA的数据集,用于监督微调。该数据集包含超过3k个问题-答案配对及其详细上下文。该数据集的可用性扩展了LongLoRA在扩展LLMs功能方面的实用性,为学术界和专业人士提供了帮助。