微软研究员提出DeepSpeed-VisualChat:可扩展的多模态语言模型训练中的一次飞跃

微软研究员推出DeepSpeed-VisualChat:实现多模态语言模型训练的巨大突破

大语言模型是先进的人工智能系统,旨在在大规模上理解和产生与人类类似的语言。这些模型在各种应用中非常有用,如问答、内容生成和交互式对话。它们的实用性源自一个长久的学习过程,其中它们分析和理解大量的在线数据。

这些模型是先进的工具,通过鼓励更复杂和有效的语言使用,改进人机交互,适用于各种环境。

除了阅读和书写文本之外,还进行了研究以教会它们如何理解和使用各种形式的信息,如声音和图像。多模态能力的进展非常令人着迷,并具有巨大的潜力。当代的大语言模型(LLMs),如GPT,在一系列与文本相关的任务中表现出色。这些模型通过使用额外的训练方法,如有人指导的监督微调或增强学习,变得非常擅长于不同的交互任务。为了达到人类专家在编码、数量思维、数学推理和与AI聊天机器人等对话方面所展示的专长水平,通过这些训练技术完善模型至关重要。

这使得这些模型能够理解和创建各种格式的材料,包括图像、声音和视频。应用了特征对齐和模型修改等方法。大视觉和语言模型(LVLMs)就是其中之一。然而,由于训练和数据可用性的问题,当前的模型在解决复杂场景(如多图像多轮对话)方面存在困难,并且在各种交互环境中的适应性和可扩展性受到限制。

微软的研究人员将其称为DeepSpeed-VisualChat。该框架通过加入多模态能力来增强LLMs,即使在拥有700亿参数的语言模型规模的情况下,也展现出了出色的可扩展性。它旨在实现具有多轮和多图片对话的动态聊天,无缝融合文本和图像输入。为了增加多模态模型的适应性和响应能力,该框架使用了多模态因果注意力(MMCA)方法,该方法在多个模态之间分别估计注意力权重。团队使用了数据混合方法以克服现有数据集的问题,从而创造了一个丰富多样的训练环境。

DeepSpeed-VisualChat以其出色的可扩展性而脱颖而出,这要归功于其巧妙地整合了DeepSpeed框架。该框架利用了语言模型编码器中拥有20亿参数的视觉编码器和700亿参数的语言解码器,推动了多模态对话系统的极限。

研究人员强调,DeepSpeed-VisualChat的架构基于MiniGPT4。在这种结构中,使用预训练的视觉编码器对图像进行编码,并使用线性层将其与文本嵌入层的隐藏维度输出进行对齐。这些输入被馈送到像LLaMA2这样的语言模型中,支持由创新的多模态因果注意力(MMCA)机制驱动。在这个过程中,语言模型和视觉编码器都保持冻结是重要的。

研究人员表示,经典的交叉注意力(CrA)提供了新的维度和问题,但多模态因果注意力(MMCA)采取了不同的方法。对于文本和图像标记,MMCA使用单独的注意力权重矩阵,使图像标记关注自身,文本则允许关注之前出现的标记。

根据实际结果,DeepSpeed-VisualChat比以前的模型更具可扩展性。它在不增加复杂性或训练成本的情况下增强了在各种交互场景中的适应性。模型规模可扩展至700亿参数的语言模型大小,可确保非常好的可扩展性。这一成就为多模态语言模型的持续提升奠定了坚实的基础,是一大步向前迈进。