华盛顿大学和AI2研究人员引入了TIFA:一种通过VQA测量AI生成图像忠实度的自动评估指标
华盛顿大学和AI2研究人员引入了TIFA:一种评估AI生成图像忠实度的自动指标
文本到图像生成模型是人工智能领域发展的最好例子之一。通过研究人员不断的进展和努力,这些模型已经走了很长的路。尽管文本到图像生成模型取得了显著的进展,但这些系统通常无法生成与提供的书面描述准确匹配的图像。现有的模型通常需要在正确组合图像中的多个项目、为适当的对象分配特征以及生成视觉文本方面提供帮助。
研究人员一直试图通过引入语言结构来增强生成模型处理这些困难的能力,以指导视觉的创建。像CLIPScore这样的方法使用CLIP嵌入来评估生成的图像与文本输入的相似程度,但由于其在准确计数和合理推理方面的能力受到限制,因此是一个不可靠的度量。使用图像标题是一种替代策略,其中图像通过文本进行解释,然后与原始输入进行对比。然而,这种方法存在不足之处,因为标注模型可能会忽视图像的重要方面或关注无关的区域。
为了解决这些问题,华盛顿大学和AI2的研究团队引入了TIFA(Text-to-Image Faithfulness evaluation with Question Answering),这是一个使用视觉问答(VQA)来确定生成的图像与相关文本输入的相似度的自动化评估度量。该团队使用语言模型从给定的文本输入中生成各种问题-答案对。通过检查知名的VQA模型是否可以正确回答这些查询,使用创建的图像可以评估图像的真实性。
TIFA是一种无参考度量标准,可以对输出图像的质量进行全面而简单的评估。与其他评估度量相比,TIFA与人类判断具有更强的关联性。以此方法为基础,该团队还提出了TIFA v1.0,这是一个包含各种4K文本输入和共计25K个问题的基准,分为12个不同的类别,例如对象和计数。使用TIFA v1.0,这个基准已经被用来全面评估现有的文本到图像模型,突出显示它们目前的不足和困难。
尽管在颜色和材料表达等方面表现出色,但使用TIFA v1.0的测试显示,现代文本到图像模型在准确描述空间关系和成功组合多个对象的数量方面仍存在问题。该团队通过引入他们的基准,分享了他们构建一个准确的评估文本到图像合成领域发展的尺度的目标。通过提供宝贵的见解,他们希望将所有未来的研究引导到克服所指出的限制并促进这项技术的进一步发展的方向。
总之,TIFA绝对是一种衡量图像和文本对齐的好方法,首先通过LLM生成一系列问题,然后利用视觉问答对图像进行计算和准确度评估。