解码情绪:用EmoTX,一种新的基于Transformer的AI框架揭示情感和心理状态

EmoTX:一种基于Transformer的AI框架解码情绪和心理状态

电影是最富有艺术表达力的故事和情感之一。例如,在《追求快乐》中,主角经历了一系列情绪变化,体验了分手和无家可归等低谷,以及实现了梦寐以求的工作等高峰。这些强烈的情感引起了观众的共鸣,他们能够理解角色的成长历程。为了在人工智能(AI)领域理解这样的叙事,机器必须监控角色情绪和心理状态在整个故事中的发展变化,因此利用MovieGraphs的注释并训练模型观察场景、分析对话并预测角色的情感和心理状态变得至关重要。

情感主题在历史上得到了广泛的探索,从古罗马的西塞罗四分法到当代的大脑研究,情感的概念一直吸引着人类的兴趣。心理学家通过引入诸如普鲁切克的情感轮或埃克曼关于普遍面部表情的观点等结构,为这个领域做出了贡献,提供了多样的理论框架。情感情绪还被进一步划分为涵盖情感、行为和认知方面以及身体状态的心理状态。

在最近的一项研究中,一个名为Emotic的项目在处理视觉内容时引入了26个不同的情感标签簇。该项目提出了一个多标签框架,允许一张图像同时传达多种情感,例如平静和参与。作为传统分类方法的替代方案,该研究还融入了三个连续维度:价值、唤醒度和支配度。

为了准确预测广泛的情感,分析必须涵盖各种上下文模态。多模态情感识别中的重要途径包括对话中的情感识别(ERC),其中涉及对每次对话交换的情感进行分类。另一种方法是为电影片段的短时间段预测一个单一的价值-活动分数。

在电影场景的层面上进行操作意味着处理一组镜头,这些镜头共同讲述了一个特定位置内的子故事,涉及到一组确定的演员,并在30到60秒的短时间内发生。这些场景的持续时间显著长于单独的对话或电影片段。目标是预测场景中每个角色的情感和心理状态,包括在场景级别上积累的标签。由于时间窗口较长,这种估计自然导致了多标签分类方法,因为角色可能同时传达多种情感(如好奇和困惑),或者由于与其他人的互动而发生转变(例如,从担忧到平静)。

此外,虽然情感可以广泛地归类为心理状态的一部分,但这项研究区分了表达的情感和潜在的心理状态。表达的情感在角色的举止中明显可见(例如惊讶、悲伤、愤怒),而潜在的心理状态只能通过互动或对话中观察到(例如礼貌、决心、自信、乐于助人)。作者认为,在广泛的情感标签空间中有效分类需要考虑多模态上下文。作为解决方案,他们提出了EmoTx模型,该模型同时结合了视频帧、对话话语和角色出现。

该方法的概述如下图所示。

https://arxiv.org/abs/2304.05634

EmoTx采用基于Transformer的方法,基于每个角色和电影场景的情感进行识别。该过程始于对视频的初始预处理和特征提取流程,从数据中提取相关的表示。这些特征包括视频数据、角色面部和文本特征。在这个上下文中,引入适当的嵌入来根据模态、角色枚举和时间上下文进行区分。此外,生成用于个别情感分类的作为场景或特定角色的分类器的标记,并与之相关联。一旦嵌入,这些标记通过线性层进行组合,并馈送到Transformer编码器中,实现跨不同模态的信息整合。方法的分类组件从先前关于使用Transformer进行多标签分类的研究中汲取灵感。

以下是作者发布的与“阿甘正传”场景相关的EmoTx行为示例。

https://arxiv.org/abs/2304.05634

这是EmoTx的概要,一种基于Transformer的新型AI架构,可以通过合适的多模态数据预测视频剪辑中出现的主体的情绪。如果您感兴趣并且想了解更多信息,请随时参考下面引用的链接。