这份AI论文揭示了“Vary”:一种扩展大型视觉-语言模型视觉词汇的新方法,用于先进的多语种感知任务

AI论文揭示了“Vary”:一种新的高级多语种感知任务中,扩展大型视觉-语言模型视觉词汇的方法

大型视觉语言模型(LVLMs)结合了计算机视觉和自然语言处理,可以生成关于视觉内容的文本描述。这些模型在图像字幕、可见问题回答和图像检索等各种应用中取得了显著的进展。然而,尽管它们表现出色,但LVLMs在需要密集和细粒度感知的专门任务中仍面临一些挑战。Vary方法解决的问题是LVLMs在特定任务中对视觉词汇的限制,这些任务要求对视觉内容有更细微的理解。

华中科技大学、旷视科技和中国科学院大学的研究人员介绍了Vary方法,该方法为需要密集感知的专门任务增强了LVLMs的能力。它使LVLMs能够高效地获取新特征,改善细粒度感知。实验结果表明,Vary在各种功能中的有效性。研究人员提出Vary作为进一步探索的平台,承认其改进空间。研究指出使用GPT-4生成训练数据,并强调Vary在各种下游视觉任务中的适用性,扩展LVLM的能力同时保持原有的能力。

本研究解决了常见视觉词汇(如CLIP-VIT)在密集和细粒度视觉感知场景中的局限性,促使在LVLMs中扩大视觉词汇的需求。它介绍了Vary,这是一种受到对外语扩展文本词汇的启发的方法。Vary通过一个词汇网络生成一个新的视觉词汇,并将其与原有词汇整合,旨在提高编码效率和模型在非英语OCR和图表理解等多样任务中的性能。它预计Vary的设计将刺激进一步的研究。

研究介绍了Vary的两种配置:Vary-tiny和Vary-base。Vary-tiny注重细粒度感知,没有文本输入分支,使用了一个小型OPT-125M模型。它使用文档和图表数据作为正样本,使用自然图像作为负样本进行训练。Vary-tiny的词汇网络生成一个新的视觉词汇,Vary-base中与原有词汇整合。在Vary-base训练时,同时利用了两个词汇网络,冻结它们的权重,而优化LVLM参数和输入嵌入层。实现细节包括AdamW优化、余弦退火调度器和特定的学习率。为文档和图表理解创建了合成数据。

Vary在多个任务中表现出有希望的性能,在文档级OCR、图表理解和MMVet任务中表现出色。具体而言,在DocVQA中取得了78.2%的ANLS,以及在MMVet中取得了36.2%,展示了其在新的文档解析功能方面的能力。Vary-tiny和Vary-base在文档OCR任务中展现出强大的结果,其中Vary-base超过了其他LVLMs。尽管研究承认了Vary的成功,但强调了有效扩大视觉词汇的持续改进的需求。

总之,该研究的关键要点可以总结如下:

  • 提案:扩大LVLMs的视觉词汇的高效方法。
  • 方法:该方法通过与原有语言整合的网络生成一个新的视觉词汇。
  • 能力:该方法增强了细粒度感知,特别是在文档级OCR和图表理解任务中。它在快速获取新特征的同时保持了LVLMs的原有能力。
  • 性能:在各种任务中都展示出有希望的得分,该方法在文档解析功能方面优于其他LVLMs。