“第一个通用视觉和语言人工智能:LLaVA”

LLaVA The first universal vision and language artificial intelligence.

LLaVA:用GPT-4填补视觉和语言AI之间的差距

原文发表在louisbouchard.ai上,提前2天在我的博客上阅读!

观看视频!

GPT-4非常强大,但你知道吗,有些AI完全是依靠它构建的吗?是的,GPT-4非常出色,可以用来生成足够好的数据来训练其他AI模型。而且不仅仅是任何模型,而是比它自己更好的模型!刘等人刚刚使用GPT-4创建了一个名为LLaVA的通用语言视觉模型,这是第一个能够理解和遵循基于视觉和语言的指令的通用模型。基本上,这是一个几乎完美理解文本和图像的模型。因此,您可以向它询问任何有关任何图像的问题。由于GPT-4目前还不能看到图像,但在文本方面非常出色,我们可以向其发送图像的标题,并要求它生成不同类型的输出,例如问题和答案、图像的更详细描述,甚至是关于图像标题的推理问题和答案。这就是作者所做的。他们给GPT-4模型赋予了角色和个性,并要求其根据每个图像的初始标题生成各种类型的数据。

<img alt="“一个例子以说明遵循指令的数据。顶部模块显示用于提示GPT的上下文,如标题和框,底部模块显示三种类型的响应。请注意,视觉图像不用于提示GPT,我们只在这里作为参考展示。”图片和标题来自论文。

这是在LLaVA案例中给GPT-4的指令的样子,以构建尽可能深入理解图像的最佳数据集。从要求简洁描述图像到详尽描述,甚至是彻底分析。

<img alt="简要图像描述的指令列表。图片来自论文。

这些用户生成的提示和GPT-4生成的答案将填充一个包含不同问题、答案和图像描述的良好数据集,使我们能够训练我们的多模态AI,即能够处理图像和文本的AI,然后发送…