“大型语言模型能帮助视频中的长期动作预测吗?介绍AntGPT:一个用于基于视频的长期动作预测任务的AI框架,将大型语言模型纳入其中”
介绍AntGPT:一个用于基于视频的长期动作预测任务的AI框架,将大型语言模型纳入其中
从视频观察中,研究侧重于长期动作预测(LTA)任务。对于一个感兴趣的参与者在一般较长的时间范围内的动词和名词预测序列是其期望的结果。LTA对于人机交流至关重要。机器代理可能使用LTA来帮助人们处理像自动驾驶汽车和日常家务等情况。此外,由于人类行为的固有模糊性和不可预测性,即使具有完美的感知,视频动作检测也非常困难。
自下而上的建模是一种流行的LTA策略,它直接使用潜在视觉表示或离散的动作标签来模拟人类行为的时间动力学。大多数当前的自下而上的LTA策略是使用视觉输入的端到端训练的神经网络实现的。知道参与者的目标可能有助于动作预测,因为人类行为,特别是在日常家庭情境中,经常是“有目的的”。因此,除了广泛使用的自下而上策略之外,他们考虑了一种自上而下的框架。自上而下的框架首先概述了实现目标所需的过程,从而暗示了人类参与者的长期目标。
然而,使用目标有条件的过程规划进行动作预测通常是困难的,因为目标信息在当前LTA标准中经常未标记和潜在。他们的研究在自上而下和自下而上的LTA中解决了这些问题。他们建议检查大语言模型(LLMs)是否可以从电影中受益,因为它们在机器人规划和基于程序的视觉问题回答方面取得了成功。他们提出,通过在程序性文本材料(如食谱)上进行预训练,LLMs可以为长期动作预测任务编码有用的先验信息。
在理想情况下,编码在LLMs中的先验知识可以同时辅助自下而上和自上而下的LTA方法,因为它们可以回答像“在当前动作之后最可能的动作是什么?”这样的问题,以及“参与者试图实现什么目标,并且实现目标的剩余步骤是什么?”他们的研究特别旨在回答使用LLMs进行长期动作预测的四个问题:第一,视频和LLMs之间的LTA工作的适当接口是什么?第二,LLMs对自上而下的LTA有用吗?它们能推断出目标吗?第三,LLMs对时间动力学的先验知识可以帮助动作预测吗?最后,它们能利用LLMs的上下文学习能力提供的少样本LTA功能吗?
布朗大学和本田研究所的研究人员提供了一个名为AntGPT的两阶段系统,用于进行定量和定性评估,以回答这些问题。AntGPT首先使用监督式动作识别算法识别人类活动。将识别出的动作作为离散化的视频表示输入OpenAI GPT模型,以确定动作的预期结果或即将发生的动作,然后可以选择将其后处理为最终的预测结果。在自下而上的LTA中,他们明确要求GPT模型使用自回归方法、微调或上下文学习来预测未来的动作序列。他们首先要求GPT预测参与者的目标,然后再生成参与者的行为以实现自上而下的LTA。
然后,他们使用目标信息提供有条件的预测。此外,他们通过推理链和少样本自下而上的LTA来研究AntGPT的自上而下和自下而上的LTA能力。他们在包括EGTEA GAZE+、EPIC-Kitchens-55和Ego4D在内的几个LTA基准测试上进行了测试。定量测试证明了他们建议的AntGPT的可行性。额外的定量和定性研究表明,LLMs可以根据视频观察中的离散动作标签推断出参与者的高层目标。此外,他们指出,LLMs可以在给定各种输入目标的情况下执行反事实动作预测。
他们的研究做出了以下贡献:
1. 他们建议使用大型语言模型来推断目标、建模时间动力学,并将长期动作预测定义为自下而上和自上而下的方法。
2. 他们提出了AntGPT框架,该框架自然地将LLMs与计算机视觉算法相连接,以理解视频,并在EPIC-Kitchens-55、EGTEA GAZE+和Ego4D LTA v1和v2基准测试上实现了最先进的长期动作预测性能。
3. 他们进行全面的定量和定性评估,以了解当用于LTA工作时LLMs的重要设计决策、优点和缺点。他们还计划很快发布代码。