这是真正的多模学习吗?—解析ImageBind

解密ImageBind:真正的多模学习技术?

图像转文本或音频转文本,那就是去年的多模态学习!ImageBind [1] 是由Meta AI开发的。现在这才是真正的多模态学习!

ImageBind将多种模态结合到一个共享的嵌入空间中。这意味着我们可以进行跨模态检索,即我们可以输入一个音频序列,例如火焰的爆裂声,然后检索到一张火焰的图像。或者我们甚至可以结合两种不同的模态,比如一张鸟的图片和海浪的声音,来检索到同一只鸟在海里的图片。那么,将DALLE-2升级为使用音频而不是文本作为输入,会怎么样呢?

思路和方法

这里真正酷的事情是,ImageBind从未经过音频和文本、文本和深度、音频和IMU、深度和热成像等的训练。事实上,所需的所有数据仅仅只是各种模态和图像的配对数据。因此,ImageBind将每种模态绑定到图像上。或者更确切地说,绑定到视觉嵌入空间上。

其实,这个想法非常简单。我们首先选择一个预训练的视觉编码器,例如ViT,它可以对图像和视频进行编码。(图像实际上就是单帧视频。)有了这个图像嵌入,我们现在可以训练一个不同的模型,使其嵌入与固定的图像嵌入对齐。

训练两个单独的模型以预测不同模态输入的相似嵌入。源:来自[1]的作者改编

也就是说,针对这个图像及其嵌入,我们训练一个文本编码器,使其为图像标题生成的嵌入与图像嵌入非常相似。对于图像和其深度数据也是一样的。我们有了图像的嵌入后,现在训练一个新的深度数据编码器,使其生成的嵌入与相应的图像嵌入相似。对于图像和热成像数据、视频和音频以及视频和录制IMU数据也是同样的情况。顺便提一下,IMU数据是由加速计和陀螺仪记录的时间序列数据。

IMU数据示例。来源:[1]

例如,在这里你有一个人煮饭的视频,他身上有附着加速计和陀螺仪……