使用冻结的大型语言模型进行视觉问答
『利用冻结的大型语言模型实现视觉问答』
与LLM讨论图像,而无需对图像进行培训。
在本文中,我们将使用Q-Former,这是一种将计算机视觉和自然语言模型连接起来的技术,以创建一个视觉问答系统。我们将讲解必要的理论,并遵循BLIP-2论文,然后实现一个可以用来与大型语言模型讨论图像的系统。
这对谁有用?对计算机视觉、自然语言处理和多模态建模感兴趣的数据科学家。
这篇文章有多高级?这篇文章在概念上并不具有挑战性,但构建一个连接视觉和语言的系统必然涉及到许多概念。如果您对计算机视觉和自然语言处理没有一些经验,可能会有些困难。
先决条件:熟悉Transformer、LSTM以及不同形式序列嵌入的基本理解。所有这些主题都在下面的文章中涵盖:
Transformer-直观而全面的解释
探索现代机器学习的浪潮:逐步拆解Transformer
towardsdatascience.com
作者的一些说明:在我所有的写作中,我都力求作品具有原子性。也就是说,只要您足够理解先决条件,您无需参考其他任何来源即可理解文章的内容。由于本文涉及许多概念,所以我觉得有必要包含许多链接,以便感兴趣的读者可以在有空时进行深入了解。这些链接绝不是强制性的,请不要因此而感到困惑或分心;只是为了满足好奇心。
视觉语言建模的简要历史
视觉语言建模真正开始于2016年的论文VQA:视觉问答,这篇论文正式提出了以下类别的问题:
给定一张图像和一个关于图像的自然语言问题,任务是提供一个准确的自然语言答案 – VQA:视觉问答