认识JourneyDB:一个包含400万多样化和高质量生成图像的大规模数据集,旨在为多模态视觉理解而精心策划

了解JourneyDB:一个包含400万高质量生成图像的大规模数据集,用于多模态视觉理解

随着ChatGPT和DALL-E等大型语言模型的发展以及生成式人工智能的普及,像人类一样生成内容不再是一个梦想。现在一切都是可能的,包括问答、代码补全以及从文本描述生成内容,以及从文本和图像生成图像。最近,人工智能已经与人类的创造力相媲美。OpenAI开发的著名聊天机器人ChatGPT基于GPT 3.5的变压器架构,几乎被每个人都在使用。最新版本的GPT,即GPT 4,是多模态的,不同于之前的版本GPT 3.5,只能接受文本输入。

扩散模型的发展显著提高了生成内容的质量。由于这些发展,像DALLE、Stability AI、Runway和Midjourney这样的人工智能生成内容(AIGC)平台越来越受欢迎,因为这些系统允许用户根据自然语言中提供的文本提示创建高质量的图像。尽管在多模态理解方面取得了进展,视觉语言模型仍然难以理解生成的图像。与真实数据相比,合成图像显示出更大程度的内容和样式变异,使得模型更难以正确理解它们。

为了解决这些问题,一组研究人员推出了JourneyDB,这是一个专门为多模态视觉理解生成图像而精心策划的大规模数据集。JourneyDB拥有400万个独特的、高质量的生成照片,这些照片是使用不同的文本提示创建的。该数据集着重于内容和样式的解释,并旨在为训练和评估模型理解生成图像的能力提供完整的资源。

建议的基准测试包括以下四个任务。

  1. 提示倒置 – 提示倒置被用来找到用户用来生成图像的文本提示。这测试了模型对生成图像的内容和样式的理解能力。
  1. 风格检索 – 团队着重于风格检索,以便模型能够根据风格属性识别和检索类似的生成图像。这评估了模型在识别生成图像中的风格细微差别方面的能力。
  1. 图像描述 – 在图像描述中,模型的任务是生成准确表示生成图像内容的描述性标题,从而评估模型在自然语言中有效理解和表达生成内容的视觉元素的能力。
  1. 视觉问答 – 通过视觉问答(VQA),模型能够对与生成图像相关的问题提供准确的答案。模型能够理解视觉和样式内容,并根据给定的问题提供相关的回答。

该团队收集了4,692,751个图像-文本提示对,并将其分为训练集、验证集和测试集。为了评估,团队使用基准数据集进行了广泛的实验。结果表明,目前最先进的多模态模型在该数据集上的表现不如在真实数据集上的表现好,但对所提出的数据集进行一些调整可以大大提高它们的性能。