“AI能真正理解我们的情绪吗?这篇AI论文探讨了使用视觉变换模型进行高级面部情绪识别的方法”

“AI真的能理解我们的情绪吗?这篇AI论文探讨了使用视觉变换模型进行高级面部情绪识别的方法”

FER 在人机交互、情感分析、情感计算和虚拟现实中起着至关重要的作用。它帮助机器理解并响应人类情绪。方法学已从手动提取进化到 CNN 和基于 transformer 的模型。应用领域包括更好的人机交互和改善机器人的情感反应,使得 FER 在人机界面技术中至关重要。

FER 的最新方法学经历了重大的转型。早期的方法主要依赖于手动设计的特征和机器学习算法,如支持向量机和随机森林。然而,深度学习的出现,特别是卷积神经网络(CNN),通过灵活地捕捉面部表情中复杂的空间模式,彻底改变了 FER。尽管取得了成功,但在图像质量变化、类别不平衡、类内变化和遮挡等方面仍存在挑战,包括图像质量、光照条件的差异以及人脸表情的固有复杂性。此外,类别不平衡的数据集,如 FER2013 仓库,阻碍了模型的性能。解决这些挑战成为研究人员旨在提高 FER 准确性和韧性的重要焦点。

为了应对这些挑战,最近一篇名为“Vision Transformer 模型在人脸情绪识别中使用增强平衡数据集的比较分析”的论文提出了一种新的方法,以解决现有数据集如 FER2013 的限制。该研究旨在评估各种 Vision Transformer 模型在人脸情绪识别中的性能。它着重通过使用增强和平衡的数据集对这些模型进行评估,以确定它们在准确识别面部表情中的情绪方面的有效性。

具体而言,所提出的方法涉及通过采用先进的数据增强技术(如水平翻转、裁剪和填充)创建一个新的平衡数据集,尤其关注扩大少数类别的表示,并从 FER2013 仓库中细致地清除质量较差的图像。这个新的平衡数据集被称为 FER2013_balanced,旨在纠正数据不平衡问题,确保在各种情绪类别之间具有公平的分布。通过增加数据和消除质量较差的图像,研究人员意图提高数据集的质量,从而改善 FER 模型的训练效果。论文深入探讨了数据集质量在减轻偏见预测和增强 FER 系统可靠性方面的重要性。

首先,该方法确定并排除了 FER2013 数据集中质量较差的图像。这些质量较差的图像包括对比度低或有遮挡的情况,因为这些因素对于在此类数据集上训练的模型的性能有显著影响。随后,为了减轻类别不平衡问题,进行了数据增强。增强的目标是增加少数情绪的表达,确保在不同情绪类别之间具有更公平的分布。

接下来,该方法通过移除过度代表的类别(如快乐、中性、悲伤等)的许多图像来平衡数据集。这一步旨在在 FER2013_balanced 数据集内为每个情绪类别实现相等数量的图像。均衡的分布减少了主导类别的偏见风险,为 FER 研究提供更可靠的基准。研究强调了精心策划和增强数据集对于提高 FER 精度的关键影响,为人机交互和情感计算研究开辟了希望之路。

最后,该方法在构建平衡数据集后展示了 Tokens-to-Token ViT 模型性能的显著改进。在 FER2013_balanced 数据集上评估时,该模型的准确性得到了提高。分析涵盖了各种情绪类别,展示了在愤怒、厌恶、恐惧和中性表情等方面的显着准确性改进。Tokens-to-Token ViT 模型在 FER2013_balanced 数据集上实现了总体准确率为74.20%,而在 FER2013 数据集上为61.28%,强调了所提出方法在改进数据集质量和因此改善面部情绪识别任务的模型性能方面的有效性。

总之,作者提出了一种突破性的方法,通过改善数据集质量来提高 FER。他们的方法包括细致清理质量较差的图像,并采用先进的数据增强技术创建了一个平衡的数据集 FER2013_balanced。这个平衡数据集显著提高了 Tokens-to-Token ViT 模型的准确性,展示了数据集质量在提升 FER 模型性能方面的关键作用。该研究强调了精心策划和增强数据集对于推进 FER 精度的关键影响,为人机交互和情感计算研究开辟了有希望的领域。

这篇文章AI能真正理解我们的情绪吗?这篇AI文章通过视觉Transformer模型探讨了高级面部情感识别首次出现在MarkTechPost