这篇AI论文提出了FACTORCL:一种新的多模态表示学习方法,超越多视图冗余
FACTORCL:一种超越多视图冗余的新型多模态表示学习方法的AI论文


机器学习中的主要范式之一是从多个模态中学习表示。预训练未标记多模态数据的广泛图片,然后通过微调来获得特定任务的标签是一种常见的学习策略。现有的多模态预训练技术大多是根据先前研究中的多视角学习而来,该研究利用了多视角冗余的重要前提:多模态之间交换的信息几乎完全与后续任务相关。在这种情况下,使用对比预训练捕获共享数据,然后通过微调保留任务相关共享信息的方法已成功应用于从语音和转录文本、图像和字幕、视频和音频、指示和动作中学习。
然而,他们的研究探讨了对对比学习(CL)在更广泛的真实多模态环境中使用的两个关键限制:
1. 任务相关信息的共享较低存在许多具有很少共享信息的多模态任务,例如卡通图片和文字描述之间的任务。在这些情况下,传统的多模态CL将很难获取所需的任务相关信息,并且只会学习到一小部分训练得到的表示。
2. 高度与任务相关的明显数据:许多模态可能提供其他模态中不存在的不同信息。使用力传感器的机器人和医疗传感器的医疗保健就是两个例子。
标准CL将忽视与任务相关的独特细节,这将导致下游性能不佳。在这些限制下,如何建立适当的多模态学习目标?卡耐基梅隆大学、宾夕法尼亚大学和斯坦福大学的研究人员在这篇论文中从信息论的基本原理出发,提出了一种称为FACTORIZED CONTRASTIVE LEARNING (FACTORCL)的方法,用于实现多模态表示的学习,超越了多视角冗余。它通过条件互信息来明确定义共享和独特信息。
首先,明确因素化共享和独特表示的概念。第二种方法是通过最大化互信息下界来获得任务相关信息,并通过最小化互信息上界来提取与任务无关的信息,从而创建具有适当和必要信息内容的表示。最终,在无需显式标记的自监督场景中,使用多模态增强方法建立了任务相关性。他们通过使用各种合成数据集和涉及图像和插图语言的广泛真实多模态基准测试,实验评估了FACTORCL在预测人类情感、情绪、幽默和讽刺以及根据健康指标和传感器读数预测患者疾病和死亡的效果;在六个数据集上,他们实现了最新的最佳性能。
以下说明了他们的主要技术贡献:
1. 对对比学习性能的最新研究表明,在共享信息较少或独特信息较多的情况下,传统的多模态CL无法收集任务相关的独特信息。
2. FACTORCL是一种全新的对比学习算法:
(A) 为了处理共享信息较少或独特信息较多,FACTORCL将任务相关信息分解为共享和独特信息。
(B) FACTORCL独立优化共享和独特信息,通过捕获任务相关信息的下界和消除任务无关信息的互信息上界,产生最佳的任务相关表示。
(C) FACTORCL利用多模态增强方法估计任务相关信息,实现了他们开发的FACTORCL的自监督学习。





