指标可能会欺骗人,但眼睛不会:这种AI方法提出了一种用于视频帧插值的感知质量指标
Metrics can deceive, but eyes cannot This AI method proposes a perceptual quality metric for video frame interpolation.
显示技术的进步使我们的观影体验更加强烈和愉悦。观看4K 60FPS的内容比1080P 30FPS更加令人满意。第一个让你像亲历一样沉浸在内容中。然而,并不是每个人都能享受这种内容,因为它们不容易传输。从数据的角度来看,一分钟的4K 60FPS视频的成本约为1080P 30FPS的6倍,这对许多用户来说是不可接受的。
然而,通过增加传输视频的分辨率和/或帧率可以解决这个问题。超分辨率方法用于增加视频的分辨率,而视频帧插值方法则专注于增加视频中的帧数。
视频帧插值是通过估计现有帧之间的运动来向视频序列中添加新帧的技术。这种技术已广泛应用于慢动作视频、帧率转换和视频压缩等各种应用中。生成的视频通常看起来更加愉悦。
- 大规模生物分子动力学的深度学习:哈佛大学研究在各种系统上扩展了一个大型、预训练的 Allegro 模型
- 使用Python进行(生物)图像分析:使用Matplotlib读取和加载显微图像
- “大型语言模型真的需要那么多层吗?这项人工智能研究揭示了模型的效率:大型语言模型中必不可少的组件的探索”
近年来,视频帧插值的研究取得了重大进展。它们可以相当准确地生成中间帧,并提供愉悦的观影体验。
然而,多年来,衡量插值结果的质量一直是一个具有挑战性的任务。现有的方法大多使用现成的指标来衡量插值结果的质量。由于视频帧插值结果通常会出现独特的伪影,现有的质量指标有时在衡量插值结果时与人的感知不一致。
一些方法进行了主观测试,以获得更准确的测量结果,但这样做往往是耗时的,只有少数方法采用用户研究的方法。那么,我们如何准确地衡量我们的视频插值方法的质量呢?是时候回答这个问题了。
一组研究人员提出了一种专门用于衡量视频帧插值结果的感知质量指标。他们基于Swin Transformers设计了一种新颖的神经网络架构,用于视频感知质量评估。
该网络以原始视频序列的一帧和插值帧为输入,并输出表示两帧之间感知相似性的分数。实现这种网络的第一步是准备数据集,这也是他们的起点。他们建立了一个大型视频帧插值感知相似性数据集。该数据集包含来自各种视频的帧对,以及它们的感知相似性的人类判断。该数据集用于使用L1和SSIM目标指标的组合来训练网络。
L1损失测量预测分数和实际分数之间的绝对差异,而SSIM损失测量两个图像之间的结构相似性。通过结合这两个损失,网络被训练出能够准确预测并与人的感知一致的分数。该方法的一个主要优点是它不依赖参考帧,因此可以在通常没有该信息的客户端设备上运行。