遇见 Waymo 的 MotionLM:这种先进的多智能体运动预测方法可以让大型语言模型(LLM)帮助驾驶汽车成为可能

相遇 Waymo 的 MotionLM:这种先进的多智能体运动预测方法能够让大型语言模型(LLM)协助驾驶汽车成为可能

自回归语言模型在没有预定义的语法或解析概念的情况下,已经在预测句子中的下一个子词方面取得了出色的成果。这种方法已经扩展到包括连续数据领域,比如音频和图像生成,其中数据被表示为离散的标记,就像语言模型词汇一样。由于它们的多功能性,序列模型受到越来越复杂和动态环境中使用的兴趣的吸引,比如行为。

在驾车时,道路用户与连续对话中的参与者进行比较,因为他们交换行动和回复。问题是,是否可以像语言模型捕捉对话中的复杂语言分布那样,使用类似的序列模型来预测道路上行为者的行为方式。将行为者行为的综合分布分解为独立的每个代理边际分布已经成为预测道路上行为者行为的一种流行策略。尽管在这个方向上有了进展,但这些边际预测存在局限性,因为它们没有考虑到多个行为者的未来行动将如何相互影响,这可能导致无法预测的场景级预测。

为了解决这些问题,Waymo的研究团队提出了MotionLM,它是预测道路上行为者的未来行为的一种独特方法,这是自动驾驶车辆安全规划的一个关键方面。MotionLM的主要思想是将多个道路行为者运动预测的挑战视为语言建模工作。它将预测任务框架化,就像创建一种语言中的短语一样,其中这种语言是道路行为者的行动。

MotionLM这样做的方式,与其他现有方法不同,它不使用锚点或复杂的潜变量优化过程,而是依靠它们来捕捉各种可能的未来行为。该模型采用简单的语言模型目标,目标是最大化正确预测运动标记序列的平均对数概率。由于其简单性,该模型更易理解和训练。

许多现有方法使用两步过程,首先分别生成各个代理轨迹,然后评估代理之间的交互。相比之下,MotionLM使用单一的自回归解码方法,直接构建多个参与者未来行动的联合分布。这种交互建模整合更加高效和无缝。由于MotionLM的序列分解,也可以进行因果关系的时间关联预测。通过考虑事件之间的因果链接,提高了对未来行为的预测的逼真度和准确性。

经过评估,MotionLM在Waymo Open Motion数据集的测试中表现出色。在互动挑战中名列前茅,表明它在预测复杂情况下道路行为者的行为方面比其他方法表现更好。总之,MotionLM无疑是自主车辆多代理运动预测的一种创新方法,对该领域的发展具有很大的益处。