让ChatGPT再次具备视觉能力:这种AI方法探索了链接上下文学习以实现多模态学习

将ChatGPT赋予视觉能力:AI方法探索多模态学习通过链接上下文学习实现

语言模型通过生成连贯和上下文相关的文本的能力,彻底改变了我们与计算机交流的方式。大型语言模型(LLM)一直处于这一进展的前沿,通过对大量文本数据进行训练,学习了人类语言的模式和细微差别。ChatGPT作为LLM革命的先驱,在不同学科的人们中非常受欢迎。

LLM的强大能力使得各种任务变得更容易处理。我们可以用它们来总结文本、帮助我们写邮件、自动化编码任务、解释文档等。这些任务在一年前都相当耗时,但现在只需要几分钟就能完成。

然而,随着对多模态理解的需求不断增加,模型需要处理和生成跨越不同模态(如文本、图像甚至视频)的内容,多模态大型语言模型(MLLM)应运而生。MLLM将语言模型与视觉理解相结合,使得机器能够更全面、更有上下文意识地理解和生成内容。

在ChatGPT的热潮稍微平息后,MLLM以其能够理解和生成跨越不同模态(如文本和图像)的内容的能力,在人工智能领域引起了轰动。这些模型在图像识别、视觉定位和指令理解等任务中表现出色。然而,有效地训练这些模型仍然是一个挑战。当MLLM遇到完全新颖的情况,其中图像和标签都是未知的时候,这是最大的挑战。

此外,MLLM在处理较长上下文时往往“迷失在中间”。这些模型严重依赖开头和中间位置,这就解释了随着输入次数增加,准确性出现停滞的现象。因此,MLLM在处理较长的输入时存在困难。

是时候认识一下链接上下文学习(LCL),它解决了MLLM中的各种挑战。

所提出的链接上下文学习的演示对话。来源:https://arxiv.org/abs/2308.07891

在MLLM中,有两种关键训练策略:多模态提示调优(M-PT)和多模态指令调优(M-IT)。M-PT仅对模型的一小部分参数进行微调,同时保持其余部分冻结。这种方法在最小化计算资源的同时,可以实现与完全微调相似的结果。另一方面,M-IT通过在包含指令描述的数据集上对MLLM进行微调,增强了模型的零样本能力。这种策略改进了模型在没有先前训练的情况下理解和响应新任务的能力。这些方法都可以使用,但它们都牺牲了某些方面。

在上下文学习和链接上下文学习之间的区别。来源:https://arxiv.org/abs/2308.07891

相反,LCL探索了不同的训练策略:混合策略、2路策略、2路随机和2路加权。混合策略通过显著提高零样本准确性,并在6次训练后取得令人印象深刻的结果,脱颖而出。然而,在16次训练后,其性能略有下降。相反,2路策略显示了从2次训练到16次训练的准确性逐渐增加,表明与训练模式的更紧密对齐。

与传统的上下文学习不同,LCL 迈出了一步 further,通过赋予模型建立源和目标之间映射的能力,提升了其整体性能。通过提供具有因果链接的示范,LCL 使得MLLMs不仅能够识别相似性,还能够识别数据点之间的潜在因果关系,从而更有效地识别未见过的图像并理解新颖的概念。ISEKAI 数据集在链接上下文学习的背景下,作为评估和推进MLLMs能力的关键资源。

此外,LCL 引入了ISEKAI 数据集,一个专门设计用于评估MLLMs能力的新颖全面的数据集。ISEKAI 数据集完全由生成的图像和虚构的概念组成。它挑战MLLMs从正在进行的对话中吸收新概念,并保留这些知识以进行准确的问答。

总之,LCL 对多模态语言模型的训练策略提供了有价值的见解。混合策略和双向策略提供了增强MLLMs性能的不同方法,每种方法都有其自身的优势和局限性。上下文分析揭示了MLLMs处理更长输入时面临的挑战,强调了在这个领域进一步研究的重要性。