揭示多模态神经元的秘密:从Molyneux到Transformers的旅程

揭示多模态神经元的秘密:从莫林纽斯到变形金刚的旅程

“`html

Transformer可能是人工智能领域最重要的创新之一。这些神经网络架构于2017年引入,彻底改变了机器理解和生成人类语言的方式。

与它们的前辈不同,Transformer依赖于自注意机制以并行处理输入数据,使其能够捕捉信息序列中的隐藏关系和依赖关系。这种并行处理能力不仅加快了训练时间,还为开发具有显著复杂性和性能水平的模型铺平了道路,如著名的ChatGPT。

近年来,人工神经网络在各种任务中显示出了其能力。它们改变了语言任务、视觉任务等。但真正的潜力在于交叉模态任务,其中它们集成了各种感官模态,如视觉和文本。这些模型已经通过额外的感官输入进行扩充,并在需要理解和处理来自不同来源的信息的任务上取得了令人印象深刻的性能。

1688年,一位名叫威廉·莫林纽克斯的哲学家向约翰·洛克提出了一个引人入胜的谜题,这个问题将继续吸引学者们的思想几个世纪。他提出的问题简单而深刻:如果一个从出生就是盲人的人突然恢复视力,他们能够认出他们以前只通过触摸和其他非视觉感官来认识的物体吗?这个引人入胜的问题,被称为莫林纽克斯问题,不仅涉及哲学领域,还对视觉科学具有重要的意义。

2011年,视觉神经科学家开始了一项任务,回答这个古老问题。他们发现,无法立即通过视觉识别以前仅通过触摸识别的物体。然而,重要的发现是我们的大脑具有非凡的适应能力。在恢复视力手术后的几天内,人们可以迅速学会通过视觉来认识物体,弥补了不同感官模态之间的差距。

这种现象对于多模神经元也是否适用?是时候找到答案了。

Transformer MLP中的多模神经元在特定特征上激活。来源:https://arxiv.org/pdf/2308.01544.pdf

我们正处在一个技术革命的中间。人工神经网络,特别是那些在语言任务上进行训练的网络,在交叉模态任务中表现出了非凡的能力,它们集成了各种感官模态,如视觉和文本。这些模型已通过额外的感官输入进行扩充,并在需要理解和处理来自不同来源的信息的任务上取得了令人印象深刻的性能。

这些视觉-语言模型中的一种常见方法是使用一种以图像为条件的前缀调试形式。在这种设置中,一个单独的图像编码器与文本解码器对齐,通常借助于学习得到的适配器层。虽然有几种方法采用了这种策略,但它们通常依赖于与语言模型一起训练的图像编码器,如CLIP。

然而,最近的一项研究LiMBeR引入了一个独特的场景,模拟了机器中的莫林纽克斯问题。他们使用了一个从未见过任何语言数据的自监督图像网络BEIT,并使用在图像到文本任务上训练的线性投影层将其与语言模型GPT-J连接起来。这个引人入胜的设置引发了根本性的问题:语义在模态之间的转换是否发生在投影层内,或者视觉和语言表示的对齐发生在语言模型内部?

对于COCO超类别中的一个示例图像的前五个多模神经元。来源:https://arxiv.org/pdf/2308.01544.pdf

“`

麻省理工学院的作者们提出的研究旨在解开一个有着400年历史的谜团,并且揭示这些多模态模型是如何工作的。

首先,他们发现图像提示转换成变压器的嵌入空间并不能编码可解释的语义。反而,模态之间的转换发生在变压器内部。

其次,在仅有文本的变压器多层感知机中发现了能够处理图像和文本信息、具有相似语义的多模态神经元。这些神经元在将视觉表达转化为语言方面发挥了关键作用。

最后,也是最重要的发现是,这些多模态神经元对模型的输出具有因果作用。调节这些神经元可以从图像标题中删除特定概念,突显了它们在多模态内容理解中的重要性。

对深度网络中个别单元的内部运作进行的这项调查揭示了大量信息。就像图像分类器中的卷积单元可以检测颜色和图案,后续单元可以识别物体类别一样,多模态神经元也会在变压器中出现。这些神经元对具有相似语义的图像和文本具有选择性。

此外,即使视觉和语言是分开学习的,多模态神经元也可以出现。它们能够有效地将视觉表达转化为连贯的文本。跨模态对齐表示的能力具有广泛的影响,使语言模型成为从游戏战略预测到蛋白质设计等各种涉及顺序建模的任务中的强大工具。