合成字幕对于多模态训练是否有用?这篇AI论文展示了合成字幕在提高多模态训练的字幕质量方面的有效性

合成字幕对多模态训练是否有用?这篇AI论文展示了合成字幕在提高训练质量方面的有效性

多模态模型是人工智能领域的最重要进展之一。这些模型旨在处理和理解来自多种模态的数据,无论是视觉数据(包括图像和视频),文本数据(包括自然语言),还是音频数据(例如语音和声音)。这些模型能够结合和分析来自这些不同模态的数据,执行需要跨多种数据类型的理解和推理的复杂任务。由于大型多模态模型用于视觉任务,对这些模型进行图像-文本对的预训练已经显示出在各种与视觉相关的任务上具有高性能。

研究人员一直在努力改进用于训练大型多模态模型的网络数据(如图像-文本对)的效用,但由于诸多因素,例如图像和文本对齐不准确、数据源有问题以及内容质量低下,在线数据经常存在噪音或无信息性。目前,现有方法减少数据中的噪音,但往往导致数据多样性的减少。为了解决这个问题,一组研究人员提出了他们的方法,该方法将标题的质量作为网络数据中噪音的一个重要来源进行研究。

主要目标是探索生成的标题如何提高模糊或无信息文本的图像-文本对的实用性。为此,研究团队测试了几种混合策略,将原始网站标题与模型生成的标题进行组合。该方法在DataComp基准测试中远远超过了顶级过滤策略。在使用1.28亿个图像-文本对的候选池上,ImageNet的改进为2%,在38个任务中,平均改进为4%。他们的最佳方法在Flickr和MS-COCO的检索任务上超过了传统技术,证明了他们的策略在现实世界的应用可行性。

团队通过测试多个图像字幕模型,研究了为文本监督提供人工标题的原因。团队表明,模型生成的标题对于多模态训练的实用性并不总是由其在已建立的图像字幕基准测试(如NoCaps CIDEr)上的表现如何决定。这凸显了对生成的标题进行评估的必要性,特别是对于多模态活动,而不仅仅依赖传统的图像字幕基准测试。

该研究使用了DataComp的12.8亿个图像-文本对的数据集,以研究生成的标题在更广泛范围内的应用。该实验揭示了合成文本的局限性,并强调了在训练数据扩大的背景下,图像策展的日益重要性。团队分享的见解有:

  1. 选择字幕模型:根据标准基准对预训练网络进行微调以进行图像字幕可能无法产生对多模态训练有效的字幕。无参考指标(如CLIP-S)更能反映所生成字幕的训练质量。
  1. 结合多个来源的字幕:对原始字幕和合成字幕进行过滤和混合的多种策略已经得到探索,结果在DataComp基准测试中在小规模和VoAGI规模上取得了性能提升。
  1. 合成字幕的有效性:从个体层面上看,合成字幕的噪音较少且包含更多视觉信息。然而,从总体上看,它们与原始字幕相比缺乏多样性。
  1. 合成字幕效益的可扩展性:最佳的过滤方法在不同的数据规模上有所不同。尝试不同数量的实验突显了合成字幕的局限性,在更大的数据范围内,图像质量控制和多样性差距变得更加重要。