“认识Ego-Exo4D:一套支持视频学习和多模式感知研究的基础数据集和基准套件”
探索Ego-Exo4D:支持视频学习和多模式感知研究的全方位数据集和基准套件
如今,人工智能几乎应用于几乎所有可以想象的领域。它无疑改变了我们的生活,使过程更加简化,效率更高,这是我们之前无法想象的。通过对人类技能理解的进一步改进,其能力进一步提高,从而促进了诸多应用,例如虚拟教练、机器人技术甚至社交网络。本研究论文着重于更好地装备人工智能系统,使其在理解人类技能方面更为出色。
为了捕捉人类技能,有必要同时考虑自我的观点(第一人称)和外界的观点(第三人称)。此外,这两者之间必须协同工作,因为将他人的行为映射到我们自己的行为对于更好的学习是至关重要的。现有的数据集无法充分发挥这种潜力,因为自我-外界数据集非常有限,规模较小,而且摄像机之间常常缺乏同步。为了解决这个问题,Meta 的研究人员推出了Ego-Exo4D,这是一个基础数据集,具有多模态、多视角、大规模,并包含全球多个城市的各种场景。
为了更好的理解,有时需要同时考虑两个视角,例如,一个厨师从第三人称的角度解释设备,并从第一人称的视角展示他们的手部动作。因此,为了实现更好的人类技能目标,Ego-Exo4D 包括每个序列的第一人称视图和多个外界视图。此外,研究人员确保所有视图都是时间同步的。这个多视图数据集是使用自我-外界相机装置捕获的,可以捕获近身镜头和全身姿势。
Ego-Exo4D 主要关注捕捉人体姿势动作和与物体的互动过程中人类的技能活动。该数据集包含来自不同领域的各种活动,如烹饪、自行车维修等,数据的采集是在真实环境中进行的,与以前的方法在实验室环境中进行的方法形成鲜明对比。为了进行数据收集,研究人员招募了800多名参与者,并确保遵循了严格的隐私和伦理标准。
数据集中的所有视频都进行了时标索引,这意味着摄像机佩戴者描述了他们的动作,第三人称描述了每个摄像机镜头的情况,第三人称对摄像机佩戴者的表现进行了评价,使该数据集与其他数据集有所不同。此外,在训练过程中如果缺乏自我-外界数据时,对于技能活动的自我中心感知会产生重大的研究难题。为了解决这个问题,研究人员制定了一组基础基准,旨在为社区提供一个初始点。他们将这些基准分为四个任务类别-关系、识别、熟练度和自我姿势。
总而言之,Ego-Exo4D 是一个规模空前的综合数据集,包含了不同领域的人类技能活动。它是一种首创性的数据集,填补了其前身留下的空白。该数据集在活动识别、体态估计、人工智能辅导等许多领域有着广泛的应用,并且研究人员相信它将成为多模态活动、自我-外界等方面研究的推动力量。