我们是否很快会有自己的个人AI电影伙伴?
我们是否很快会有个人AI电影伙伴?
Video-LLaMA 🦙 论文解析。
不管是在电影期间还是之后聊天,你和我都知道我们喜欢谈论我们喜欢的电影。但是我们离使用人工智能进行这样的对话有多远呢?通过利用像 LLaMA [1] 这样强大的 LLM,Video-LLaMA [2] 将我们带离了与视频内容聊天的现实更近一步。在本文结束时,你将了解 Video-LLaMa 如何处理视频的视觉和听觉内容,以及作者用来训练模型的技巧。但你也将了解处理视频数据的挑战。
结果
那么,Video-LLaMA 具体取得了什么成果呢?
![Source: [2]](https://miro.medium.com/v2/resize:fit:640/1*BINhs5KEPcs6-WmdU9jP3g.gif)
它成功地使你能够输入一个视频,并且不仅能询问有关其视觉内容的问题,还能询问模型在视频中听到了什么!
![Source: [2]](https://miro.medium.com/v2/resize:fit:640/format:webp/1*2OtwjkFhqKYl0bbaE2q7fQ.png)
由于它的架构,该模型还可以处理静态图像,例如详细描述图像或理解“不寻常”概念,并描述具体场景中的不寻常之处。这种能力得到了现有现代 LLMs(如 LLaMA)的推理能力的增强。
架构
图像字幕生成,或者更一般地说,图像到文本模型(例如 Flamingo [3]、LLaVa [4]、BLIP2 [5]、Kosmos-1 [6] 和 -2 [7])通常都使用视觉编码器(如 ViT)将单个图像嵌入到一系列嵌入中,然后尝试将其与 LLM 对齐。但是对于视频,我们不仅有一个单独的图像,还有一个相应的音频序列。那么,我们如何嵌入整个视频呢?嗯,老实说,方法几乎是一样的。
![Video-LLaMA 整体架构。来源:[2]](https://miro.medium.com/v2/resize:fit:640/format:webp/1*ANl5_qohxSdIOg21ooHEeg.png)