斯坦福大学的研究人员引入了一种新的人工智能框架,旨在增强当前模型对各种视觉概念的可解释性和生成能力
斯坦福大学的研究人员开发出新型人工智能框架,提升视觉概念理解及生成能力
为了拥有多样的视觉创意,提升现有模型的可解释性和生成能力非常重要。斯坦福大学的研究人员推出了一种AI框架,用于学习以语言为基础的视觉概念表示。该框架训练了与语言相关的概念编码器,这些编码器编码与文本嵌入从预训练的视觉问答(VQA)模型对齐的具有语言信息的概念轴上的信息。
概念编码器被训练成编码与语言相关的概念轴上的信息。该模型从新的测试图像中提取概念嵌入,生成具有新颖的视觉概念组合的图像,并能够推广到未见概念。该方法将视觉提示和文本查询结合起来,从而在文本到图像生成模型中强调了视觉-语言的基础。
研究旨在创建与人类类似的视觉概念识别系统。它引入了一个使用与语言指定的概念轴对齐的概念编码器的框架。这些编码器从图像中提取概念嵌入,生成具有新颖概念组合的图像。
在该框架内,概念编码器被训练成沿着语言相关的概念轴编码视觉信息。在推理过程中,该模型从新的图像中提取概念嵌入,实现了具有新颖组合思想的生成。比较评估结果表明,与其他方法相比,它具有更好的重新组合效果。
所提出的基于语言的视觉概念学习框架优于基于文本的方法。它能够有效地从测试图像中提取概念嵌入,生成具有新颖概念组合的图像,并具有更好的解耦和组合性。比较分析显示其对颜色变化的捕捉更好,人工评估显示其在逼真度和忠实度上具有高分。
总而言之,本研究提出了一个有效的通过预训练模型的蒸馏来学习以语言为基础的视觉概念的框架。该方法在视觉概念编辑方面表现出了改进的性能,实现了概念编码器更好的解耦和生成具有新颖视觉创意组合的图像。研究强调使用视觉提示和文本查询来控制具有高逼真度和忠实度的图像生成的效率。
研究建议使用更大更多样的训练数据集来改进以语言为基础的视觉概念学习框架。它还建议探索不同预训练的视觉-语言模型的影响,并整合额外的概念轴以增加灵活性。该框架应在各种视觉概念编辑任务和数据集上进行评估。研究确定了自然图像中的偏见缓解,并提出了在图像合成、风格迁移和视觉叙事方面的潜在应用。