Google AI研究人员推出Pic2Word:零样本组合图像检索(ZS-CIR)的新方法
Google AI推出Pic2Word:零样本组合图像检索(ZS-CIR)的新方法


图像检索是一个复杂的过程,如果我们试图准确地表示它。许多研究科学家正在研究这个过程,以确保从实际图像给出的最小损失。研究人员找到了一种通过文本嵌入来表示图像的方法。但是,通过文本格式化图像是具有挑战性的,因为存在严重的损失和较低的准确性。这种图像表示属于计算机视觉和卷积神经网络的广泛类别。研究人员开发了一个组合图像检索(CIR)系统,以实现最小损失,但是这种方法的问题是它需要一个大型数据集来训练模型。
为了解决这个问题,Google AI研究人员引入了一种名为Pic2Word的方法。这与从x到y的函数映射相同。因此,将图片和图像映射到单词上,以确保零-shot最小损失。这种方法的优点是不需要任何标记数据。它还可以用于未标记的图像和标题图像,这比标记的数据集更容易收集。研究科学家发现它与卷积神经网络非常相似。训练集包括“查询和描述”。这些信息传递给检索模型,它在与神经网络进行比较时充当隐藏层。我们通过隐藏层传递这些信息,得到一个基准图像和我们的图像作为输出。在这种情况下,输入和输出图像之间的损失是最小的。
研究科学家提出的对比图像预训练模型是一个机器学习模型,用于生成文本和图像的嵌入。图像经过视觉编码器处理,生成视觉嵌入空间。这进一步经过文本编码器处理,生成文本嵌入。这些视觉和文本嵌入进一步处理,通过这个模型给出最小的损失。这个损失被称为对比损失。文本嵌入用于搜索图像,从而给出一个检索到的图像。图像的输出是一张不同的图像,但内容与之前相同。因此,通过这种方法,发生的损失是最小的。时尚属性组合模型是一种机器学习模型,其中获得的输入图像与输入图像相同。在该模型中获得的颜色也与输入相同。
这些方法对于将图像映射到单词标记非常有帮助。研究人员建议使用经过训练的CLIP模型,将图像视为文本标记,以便语言编码器可以灵活地组合图像特征和文本描述。研究人员进行了全面的分析,展示了Pic2Word在各种不同任务中的应用。




