腾讯AI实验室推出GPT4Video:一种统一的多模态大型语言模型,用于指导跟踪理解和安全感知生成
腾讯AI实验室引入GPT4Video:一款全新的多模态大型语言模型,助力跟踪理解与安全感知生成
“`html
解决视频理解和生成场景的问题,由腾讯AI实验室和悉尼大学的研究人员提出了GPT4Video。这个统一的多模型框架支持具备视频理解和生成能力的巨型语言模型(LLMs)。GPT4Video采用基于指令跟随的方法与稳定扩散生成模型相结合,有效而安全地处理视频生成场景。
以前的研究人员开发了处理视觉输入和文本输出的多模态语言模型。例如,一些研究人员专注于学习多种模态的联合嵌入空间。越来越多的研究兴趣在于使多模态语言模型能够遵循指令,并引入了第一个多模态指令调优基准数据集MultiInstruct。LLMs已经彻底改变了自然语言处理的方式。使用各种技术探索了文本-图像/视频生成。近期的工作还解决了LLMs的安全性问题。
GPT4Video框架是一种通用、多用途的系统,旨在赋予LLMs先进的视频理解和生成能力。GPT4Video是对当前多模态语言模型(MLLMs)的局限性的回应,尽管它们善于处理多模态输入,但在生成多模态输出方面存在不足。GPT4Video通过使LLMs不仅能够解释,还能够生成丰富的多模态内容来弥补这一差距。
GPT4Video的结构由三个主要组成部分组成:
- 视频理解模块,利用视频特征提取器和视频摘要器将视频信息编码和对齐到LLM的词嵌入空间。
- LLM主体利用LLaMA的结构,采用参数高效微调(PEFT)方法,具体使用LoRA方法,同时保留原始的预训练参数。
- 视频生成部分,通过精心构建的指令,将LLM调整为为Text to Video Model Gallery的模型生成提示。
GPT4Video在理解和生成视频方面显示出卓越的能力,在视频问答任务中超过了Valley 11.8%,在文本到视频生成任务中超过了NExt-GPT 2.3%。该模型使LLMs具备了视频生成能力,无需额外的训练参数,并能与各种模型配合进行视频生成。
总之,GPT4Video是一个强大的框架,用于增强语言和视觉模型的视频理解和生成功能。专门的多模态指令数据集的发布将加速未来在这个领域的研究。虽然专注于视频模态,但未来的更新计划将扩展到图像和音频等其他模态。
“`