精巧、高效的AI梦幻机器:DejaVu减少了AI闲聊的成本,同时保持聪明智慧

精巧高效的AI梦幻机器:DejaVu降低AI闲聊成本,保持智慧机智

训练一个大型的语言模型需要大量的计算资源,包括强大的GPU和TPU,以及专门的硬件,如AI加速器。这些资源的获取和维护成本很高。收集和准备训练大型语言模型所需的大量数据可能是一个昂贵和耗时的过程。高质量、多样化和代表性的数据集对模型的性能至关重要。

训练大型语言模型可能需要几周甚至几个月的时间,这取决于模型的大小和复杂性。稀疏性是降低成本的一种自然方法。现有的方法要么需要昂贵的重新训练,要么不能在现代硬件上实现墙钟时间加速。研究人员开发了一种新的基于输入的注意力头和MLP参数集合,其输出与密集模型在给定输入的较长时间内基本相同。

他们假设存在上下文稀疏性,并且当它们准确地被预测时,它们可以在墙钟时间内加速LLM推理,而不会损害LLM的质量或上下文学习能力。他们提出了名为“DEJAVU”的系统,该系统使用低成本的算法来实时预测每层的输入上下文稀疏性,并且还采用了以异步和硬件的实现方式加速LLM推理。

即使存在上下文稀疏性,也很难预测给定输入的稀疏性。验证这种上下文稀疏性是否存在是非平凡的,天真的验证可能代价高昂。而且,实现端到端墙钟时间加速可能也很困难。团队已经用简单的方法验证了这种稀疏性的存在。上下文稀疏性不仅依赖于单个输入标记,还依赖于它们之间的交互作用。只有具有足够上下文信息的令牌嵌入,他们才能准确地预测稀疏性。

MLP块中的上下文稀疏性可以在计算激活之后识别出来。然而,这只是证明了上下文稀疏性的存在,但在效率方面没有任何好处。需要一种快速而准确的预测方法来利用上下文稀疏性以实现端到端的效率。

DEJAVU使用前瞻预测器来规避预测成本。给定第k个块中注意力层的输入,他们异步地预测第k个块的MLP的上下文稀疏性,并将信息提供给第k个块的MLP。然后预测下一层的注意力头的稀疏性。他们还声称,可以使用轻量级基于学习的算法准确预测上下文稀疏性。

研究人员发现,DEJAVU相对于最先进的FasterTransformer和Hugging Face,标记生成延迟减少了两倍以上,而且没有精度损失。MLP稀疏预测器在零-shot任务和语言建模上没有精度损失。在MLP稀疏预测器的训练中,他们观察到稀疏预测器实现了较高的验证准确性。