CMU研究人员推出多模式图学习(MMGL):一种新的人工智能框架,用于捕捉多个多模式邻居之间的关系结构中的信息

CMU研究人员推出多模式图学习(MMGL):一种捕捉多个多模式邻居关系结构中信息的新型人工智能框架

多模态图学习是一门多学科领域,结合了机器学习、图论和数据融合的概念,用于解决涉及多种数据源及其相互关系的复杂问题。多模态图学习可以通过将视觉数据与文本信息相结合,为图像生成描述性标题。它可以提高根据查询检索相关图像或文本文档的准确性。多模态图学习还用于自动驾驶车辆,将来自各种传感器(如摄像头、激光雷达、雷达和GPS)的数据相结合,以增强感知能力并做出明智的驾驶决策。

目前的模型依赖于使用预训练图像编码器和语言模型在给定文本/图像上生成图像/文本。他们使用一对模态的方法,具有明确的一对一映射作为输入。在多模态图学习的背景下,模态指的是不同类型或数据和信息源的不同模式。每种模态都代表特定的数据类别或方面,并且可以采取不同的形式。在模态之间应用这些模型时,面临的问题是多对多映射。

卡内基梅隆大学的研究人员提出了一种用于生成任务的多模态图学习的通用系统框架。他们的方法涉及从彼此之间的关系结构中提取多个多模态邻居的信息。他们建议将复杂的关系表示为图形,以捕捉具有任意数量的模态和模态之间的复杂关系的数据,这些关系可以在不同的样本之间灵活变化。

他们的模型提取邻居编码并将其与图结构相结合,然后通过参数有效的微调对模型进行优化。为了充分理解多对多映射,团队研究了邻居编码模型,如带有文本和嵌入的自注意力、仅带嵌入的自注意力以及带有嵌入的交叉注意力。他们使用拉普拉斯特征向量位置编码(LPE)和图神经网络编码(GNN)来比较顺序位置编码。

微调通常需要特定于目标任务的大量标记数据。如果您已经拥有相关数据集或可以以合理的成本获得该数据集,与从头开始训练模型相比,微调可能具有成本效益。研究人员使用了前缀微调和LoRA用于带有文本和嵌入的自注意力(SA-TE),以及Flamingo风格微调用于带有嵌入模型的交叉注意力(CA-E)。他们发现,带有SA-TE邻居编码的前缀微调使用的参数几乎减少了四倍,从而降低了成本。

他们的研究工作是对未来多模态图学习的深入分析,为该领域的研究和探索奠定了基础。研究人员表示,多模态图学习的未来前景令人充满希望,并有望在机器学习、数据收集和处理复杂的多模态数据在各种应用中的增长的推动下得到显著扩展。