从文字到世界:使用AI多模态细粒度视频描述探索视频叙述

使用AI多模态细粒度视频描述探索视频叙述

语言是人类互动的主要方式,不仅提供其他感官如视觉和听觉的补充细节,还作为传递信息的有效渠道,例如使用语音导航引导我们到达特定位置。对于视力受损的人来说,他们可以通过听描述性音频来体验电影。前者展示了语言如何增强其他感官模式,而后者突显了语言在不同模态中传达最大信息的能力。

当代多模态建模的努力旨在建立语言与各种其他感官之间的联系,包括为图像或视频加上字幕,从图像或视频中生成文本表示,通过文本指导操作视觉内容等任务。

然而,在这些努力中,语言主要是为其他感官输入提供信息的补充。因此,这些努力通常无法全面描述不同感官模式之间的复杂信息交流。它们主要关注简单的语言元素,如一句话的字幕。

由于这些字幕的简洁性,它们只能描述显著的实体和动作。因此,通过这些字幕传达的信息与其他感官模态中存在的丰富信息相比,相当有限。这种差异导致在将其他感官领域的信息转化为语言时丧失了大量信息。

在这项研究中,研究人员将语言视为多模态建模中分享信息的一种方式。他们创建了一个名为“细粒度可听视频描述”(FAVD)的新任务,与常规视频字幕不同。通常,视频的简短字幕指的是主要部分。FAVD要求模型更像人类一样描述视频,从一个快速摘要开始,然后添加越来越详细的信息。这种方法在语言框架中保留了更多的视频信息。

由于视频包含视觉和听觉信号,FAVD任务还包括音频描述以增强综合描绘。为支持执行此任务,已构建了一个名为“细粒度可听视频描述基准”(FAVDBench)的新基准进行监督训练。FAVDBench是一个来自YouTube的超过11,000个视频剪辑的集合,涵盖了70多个真实生活类别。注释包括简洁的一句话摘要,后面是4-6个关于视觉方面的详细句子和1-2个关于音频的句子,提供了一个全面的数据集。

为了有效评估FAVD任务,研究人员提出了两个新的度量指标。第一个度量指标称为EntityScore,通过衡量视觉描述中实体的全面性来评估从视频到描述的信息传递。第二个度量指标AudioScore在预训练的音频-视觉-语言模型的特征空间中量化音频描述的质量。

研究人员为这个新引入的任务提供了一个基础模型。该模型建立在已有的端到端视频字幕框架基础上,并增加了一个附加的音频分支。此外,从视觉-语言变换器扩展到音频-视觉-语言变换器(AVLFormer)。AVLFormer采用编码器-解码器结构,如下所示。

https://arxiv.org/abs/2303.15616

视觉编码器和音频编码器分别用于处理视频剪辑和音频,从而实现多模态令牌的融合。视觉编码器依赖于Video Swin Transformer,而音频编码器利用Patchout Audio Transformer。这些组件从视频帧和音频数据中提取视觉和音频特征。在训练过程中还包括其他组件,如掩蔽语言建模和自回归语言建模。AVLFormer还使用文本描述作为输入,它使用单词标记器和线性嵌入将文本转换为特定格式。变换器处理这个多模态信息,并输出所提供的视频的详细描述。

下面报告了一些定性结果的示例,并与最先进的方法进行了比较。

https://arxiv.org/abs/2303.15616

总之,研究人员提出了FAVD,这是一项用于细粒度可听视频描述的新视频字幕任务,并提出了FAVDBench,这是一个用于监督训练的新基准。此外,他们设计了一个新的基于Transformer的基准模型AVLFormer,以解决FAVD任务。如果您有兴趣并且想要了解更多信息,请随时参考下面引用的链接。