马克斯·普朗克研究人员推出PoseGPT:一种使用大型语言模型(LLMs)来理解和推理图像或文本描述中的3D人体姿势的人工智能框架
美丽时尚专家推荐:马克斯·普朗克研究人员推出PoseGPT:一种高级人工智能框架,运用大型语言模型(LLMs)来解读、分析图像和文本描述中的3D人体姿势
人的姿势对整体健康、幸福和生活的各个方面至关重要。它包括坐、站或躺时身体的对齐和定位。良好的姿势支持肌肉、关节和韧带的最佳对齐,减少肌肉不平衡、关节疼痛和过度使用受伤的风险。它有助于均匀分布身体的重量,防止特定身体部位过度受压应力。
正确的姿势有助于更好地扩张肺部和促进充足的呼吸。弯腰或姿势不良可能会压缩胸腔,限制肺容量,影响呼吸效率。此外,良好的姿势支持身体的健康循环。研究表明,保持良好的姿势可以积极影响情绪和自信心。采取直立和开放的姿势与增加自信、积极性以及减少压力水平相关。
来自马普智能系统研究所、苏黎世联邦理工学院、Meshcapade和清华大学的研究人员团队构建了一个框架,使用了一个名为PoseGPT的大型语言模型,用于理解和推理来自图像或文本描述的3D人体姿势。传统的人体姿势估计方法,例如基于图像或文本的方法,通常需要更全面的场景理解和微妙的推理,导致视觉数据与其现实世界的影响之间存在差异。PoseGPT通过将SMPL姿势嵌入到多模式LLM中作为独特的信号令牌,从而解决了这些限制,并使其能够直接从文本和图像输入中生成3D身体姿势。
他们的方法通过提示LLM在查询SMPL姿势相关问题时输出这些姿势作为唯一的令牌,并从该令牌中提取语言嵌入,使用多层感知器(MLP)直接预测SMPL姿势参数。这使得该模型可以以文本或图像作为输入,并输出3D身体姿势。
他们在各种不同的任务上评估了PoseGPT,比如从单张图像中估计3D人体姿势和从文本描述生成姿势。这些传统任务的指标准确性仍然需要与专门的方法相匹配,但他们将其视为首个概念验证。更重要的是,一旦LLMs理解了SMPL姿势,它们可以利用自身的世界知识来关联和推理人体姿势,而无需大量额外的数据或训练。
与传统的姿势回归方法相反,他们的方法不涉及向多模式LLM提供围绕个体的裁剪边界框。相反,该模型接触整个场景,使他们能够在此上下文中制定关于个体及其相应姿势的查询。
一旦LLMs掌握了3D人体姿势的概念,它就具有生成人体姿势和理解世界的双重能力。这使得它能够对复杂的语言和视觉输入进行推理,并开发人体姿势。这为这种能力所带来的新任务和评估任何模型的性能提供了可能。