中国的这篇AI论文介绍了“Monkey”:一种新颖的人工智能方法,可提高大型多模态模型中的输入分辨率和上下文关联性

聚焦中国“猿”:一种新颖的人工智能方法,提升大型多模态模型的输入分辨率与上下文关联性

“`

大型多模型在处理和分析文本和图片等各种数据方面的能力使其变得越来越受欢迎。学者们已经注意到它们在各种多模态活动中的知识,包括图像标注、回答视觉问题等。 LLaVA、MiniGPT4、mPLUG-Owl和Qwen-VL等最先进的模型是这一领域快速进展的例子。然而,在处理复杂场景时仍存在一些障碍,这主要是由于各种图片分辨率的广泛范围和对更高质量的训练数据的需求。图片编码器已经得到改进,并使用大型数据集来提高输入分辨率以克服这些困难。

此外,LLaVA在多模态情景中将指导调整扩展到融合多模态指导遵循数据方面具有创新性。尽管取得了这些进展,但这些技术在管理可持续的图片输入尺寸和庞大的训练成本方面通常需要帮助。随着数据集越来越大,更复杂的图片描述需求也增加,而这需要在COYO和LAION等数据集中的简短一句话标题中满足。在此背景下,华中科技大学和金山的研究人员提出了一种资源高效的技术,称为Monkey,用于在LMM范式中增加输入分辨率。通过利用已有的LMM,研究团队绕过了耗时的预训练过程,得益于丰富的开源工作。

研究团队提出了一种简单而高效的模块,采用滑动窗口方法将高分辨率图片分成更易处理的局部区域。一个静态的视觉编码器、多个LoRA修改和可训练的视觉采样器分别对每个分块进行编码。然后将这些分块的编码和整个图片的编码提供给语言解码器,以提高对图片的理解。我们还创建了一种技术,将来自各种生成器(例如BLIP2、PPOCR、GRIT、SAM和ChatGPT OpenAI)的多级提示结合起来,以提供丰富而高质量的标题数据。

首先,他们模型的图片标题任务能够准确描述图片的几乎所有方面,包括运动员的不同配件和背景中的红旗,没有任何错误或遗漏。即使不仔细观察图片,模型在描述中突出显示了标题中的棕色袋子。这个小暗示使模型能够做出合理的推断,即使不能确定地验证它。这表明了模型关注小物品并提供逻辑和准确描述的能力。除了对视觉的详细解释外,模型还区分了多种语言和相应的信号。

根据这些信息,可以合理预测Monkey的照片效用。即使图片的水印“life quotes Tumblr”中缺少一个“e”,模型仍然可以回答关于它的问题。这表明在训练后,模型能够阅读更高分辨率照片中的小文本。当模型正确回答关于日期“1966年10月6日”的问题时,展示了模型能够从图表中读取数据,并在密集的文本材料中识别出正确答案。这个现象表明了模型能够准确表示给定文本与其匹配目标的对齐并识别答案的能力,即使在厚重和模糊的文字中也能准确地识别答案,突显了模型对目标的相关性和其全局知识的能力。

Monkey的好处总结如下:
1. 上下文内的关联。通过提供一个多级策略来生成描述,研究团队提高了模型理解不同目标间关系和创建文本描述时更有效地探索常见知识的能力。这导致更有深度和全面性的研究结果产生。
2. 在无预训练情况下,支持高达1344 x 896的分辨率。超过通常用于LMM的448 x 448分辨率,这个大分辨率提高了识别和理解小或密集物体和文本的能力。
3. 在多个评估数据集上性能提升。在16个不同的数据集上对Monkey模型进行测试后,它在图像标题、常见视觉问题回答、场景文本中心的视觉问题回答和基于文档的视觉问题回答等任务中表现出竞争力。

“`