迎接OmniControl:一种人工智能方法,将灵活的空间控制信号纳入基于扩散过程的文本条件人体运动生成模型中
迎接OmniControl:将灵活的空间控制信号纳入基于扩散过程的文本条件人体运动生成模型的人工智能方法
研究人员解决了将每个关节上的空间控制信号在任何给定的时间转化为文本条件下的人体动作产生的问题。现代基于扩散的技术可以产生多样和栩栩如生的人体动作,但在整合可变的空间控制信号方面却面临困难,这些信号对于许多应用来说是至关重要的。例如,模型必须调节手的位置以在特定的时刻和地点接触杯子,并理解“提起”语义以综合动作,以便捧起杯子。同样地,当在低矮的天花板房间中移动时,模型必须谨慎调节头部的高度一定的时间,以避免意外发生。这些控制信号往往以关键帧中感兴趣关节的全局位置进行交付,但是,先前的修补方法无法整合灵活的控制信号,因为它们选择使用相对人体姿势的表示方式。这些限制大多是由于关节和骨盆之间以及前一帧的相对位置引起的。控制信号中提供的全局骨盆位置因此必须相对于前一帧的位置进行转换才能输入到关键帧中。与其他关节的位置输入方式类似,骨盆的全局位置也必须进行转换。然而,在扩散生成过程中,骨盆的相对位置必须更加明确或更正,这两种情况都是如此。要整合骨盆之外的关节上的任意空间控制信号,首先需要帮助处理骨盆上的稀疏限制。其他方法提出了一个两阶段模型,但由于骨盆上的控制信号有限,它仍然难以调节其他关节。在这项研究中,来自东北大学和Google Research的研究人员提出了OmniControl,这是一种全新的基于扩散的人体生成模型,可以在任何给定的时刻在任何关节上包括灵活的空间控制信号。在OmniControl的基础上,添加了现实主导以调节人体动作的创建。照片里的符号图一:在给定的文字提示和适应性空间控制信号的情况下,OmniControl可以产生令人信服的人体姿势。较晚的帧由较深的颜色表示。输入的控制信号由绿线或点表示。为了使模型工作良好,他们在输入和输出上使用相同的相对人体姿势表示。然而,与当前方法相反,他们建议将生成的动作转换为全局坐标,以与空间指导模块中的输入控制信号进行直接比较,并使用误差的梯度来改善动作。这解决了先前修补方法的缺点,消除了关于骨盆相对位置的不确定性。此外,与以前的方法相比,它使得生成的动作能够进行动态迭代的改进,提高了控制精度。尽管能够实施空间限制,但仅有空间指导往往会导致不断漂移和异常人体动作问题。他们提出了现实主导方案,该方案输出每个运动扩散模型中的注意力层中特征的残差,从控制图片制作中获得启发,以解决这些问题。这些残差可以明确而密集地改变全身动作。为了在空间限制的情况下产生真实、连贯和一致的动作,空间指导和现实主导两者都是至关重要的,并且在平衡控制精度和动作真实性方面是互补的。通过使用HumanML3D和KIT-ML进行的研究表明,在运动逼真性和控制准确性方面,OmniControl相较于最先进的基于文本的运动生成技术在骨盆控制方面表现出显著优势。然而,OmniControl的优势在于在任何时刻整合空间限制,如图1所示,他们可以训练一个单一模型来同时控制多个关节,而不是单独控制(例如,左右手腕)。这些OmniControl的特点使其可能应用于多种下游应用,例如将产生的人体动作与周围的景物和物体联系起来,如图1中的最后一列所示。他们的主要贡献有:(1)据他们所知,OmniControl是第一个能够在任何给定的时刻整合空间控制信号的策略。(2)为了成功平衡生成动作中的控制精度和动作逼真性,他们建议使用一个独特的控制模块,该模块使用空间和现实主导。(3)测试显示,在文本驱动的运动生成中,OmniControl可以使用单一模型来控制更多的关节,从而在控制骨盆方面设定了一个新的标准,并为人体动作生成开启了各种应用的可能性。