通过MM-VID解锁先进的AI视频理解,为GPT-4V(视觉)提供支持
探索先进的AI视频理解:通过MM-VID解锁功能,助力GPT-4V(视觉)


全球范围内,每天都有无数个人制作各种视频,包括用户生成的直播、视频游戏直播、短片、电影、体育广播和广告。作为一种多功能的视觉和音频智能,视频通过文字、视觉和音频等多种方式传达信息和内容。开发能够从这些多样化模态中学习的方法对于设计具有增强能力的认知机器以分析未经筛选的现实世界视频至关重要,超越手动策划数据集的限制。
然而,这种表达的丰富性给探索视频理解带来了许多挑战,尤其是在面对持续时间较长的视频时。理解长时间视频的细微差别,特别是超过一小时的视频,需要先进的图像和音频序列分析方法,跨越多个剧集。这种复杂性随着从多个来源提取信息、区分发言人、识别角色和保持叙述连贯性的需求而增加。此外,根据视频证据回答问题需要对内容、上下文和字幕有深入的理解。
在线流媒体和游戏视频中,还会出现处理实时动态环境的额外挑战,需要语义理解和进行长期战略规划的能力。
- 研究一个人道主义灾难情景报告聊天机器人——使用GPT-4-Turbo和全上下文引导
- Oracle首次推出带有增强的读写分离功能的MySQL 8.2
- 引爆未来:TensorRT-LLM发布加速AI推理性能,为在RTX驱动的Windows 11个人电脑上运行的新模型提供支持
最近,在大型预训练和视频语言模型方面取得了相当大的进展,展示了它们对视频内容具有高效推理能力。然而,这些模型通常是在简洁的片段(例如10秒视频)或预定义的动作类别上进行训练的。因此,这些模型在提供对复杂的现实世界视频的细致理解方面可能存在局限。
理解现实世界视频的复杂性涉及到确定场景中的个体并辨别他们的动作。此外,还需要准确定位这些动作,指明其发生的时间和方式。此外,还需识别不同场景中的细微差别和视觉线索。本工作的主要目标是应对这些挑战,并探索直接适用于现实世界视频理解的方法。该方法涉及将长视频内容拆解成连贯的叙述,并随后使用这些生成的故事进行视频分析。
大型多模态模型(LMM),如GPT-4V(视觉),在处理输入图像和文本进行多模态理解方面取得了重大突破。这引发了将LMM的应用扩展到视频领域的兴趣。本文介绍了MM-VID,一个将专业工具与GPT-4V结合用于视频理解的系统。下图为该系统的概览。
在接收到输入视频后,MM-VID开始进行多模态预处理,包括场景检测和自动语音识别(ASR),以从视频中获取关键信息。随后,根据场景检测算法将输入视频分割成多个片段。然后,使用GPT-4V,利用片段级视频帧作为输入,为每个视频片段生成详细的描述。最后,GPT-4根据片段级视频描述、ASR和可用的视频元数据生成完整视频的连贯剧本。生成的剧本赋予MM-VID执行多种视频任务的能力。
以下是从研究中选取的部分示例。
这是MM-VID的摘要,它是一种将专业工具与GPT-4V相结合用于视频理解的新型AI系统。如果您有兴趣并想了解更多信息,请随时参考下方引用的链接。



