“RPDiff见面:一个用于3D场景中6自由度物体重新排列的扩散模型”
RPDiff见面:一个用于3D场景中6自由度物体重新排列的扩散模型
机器人设计和构建以执行日常任务是计算机科学工程中令人兴奋且最具挑战性的领域之一。麻省理工学院、NVIDIA和Improbable AI Lab的研究人员成功地通过使用Robotiq 2F140平行爪夹编程控制Frank Panda机器人臂来重新排列场景中的物体,以实现所需的物体场景摆放关系。在现实世界中,对于给定场景,存在许多几何上相似的重新排列解决方案并不罕见,研究人员通过使用迭代姿态去噪训练方法来构建解决方案。
在现实世界的场景中,解决当前几何外观和布局的组合变化是一个挑战,这些场景为物体-场景交互提供了许多位置和几何特征,例如将书放在半满书架上或将杯子挂在杯架上。可能有很多场景位置可以放置物体,而这些多种可能性导致了在编程、学习和部署上的困难。系统需要预测涵盖可能重新排列的所有基础的多模态输出。
对于给定的最终物体场景点云,可以将初始物体配置视为从中可以预测重新排列的扰动,通过对点云姿态去噪来生成带有噪声的点云,并通过使用神经网络训练模型将其随机转换到初始配置中。在给定大量数据的情况下,多模态对效果不佳,因为模型试图学习适合数据的平均解决方案。研究团队采用了多步去噪过程和扩散模型来克服这个困难。该模型被训练为扩散模型,并进行迭代去噪。
- 如何在2023年成为数据策略师?
- 麻省理工学院洛厄尔分校的研究人员提出了ReLoRA:一种新的人工智能方法,该方法使用低秩更新进行高秩训练
- 自动化机器学习任务:MLCopilot如何利用LLMs帮助开发者简化机器学习流程
在迭代去噪后,需要对新颖场景布局进行泛化。研究团队提出通过裁剪靠近物体的区域来对场景点云进行局部编码。这有助于模型将注意力集中在附近的数据集上,忽略非局部的远程干扰。从随机猜测进行推断可能导致远离良好解决方案。研究人员通过考虑较大的裁剪尺寸,并在多次迭代中减小其尺寸,以获得更局部的场景上下文。
研究团队实施了关系姿态扩散(RPDiff)来在物体和场景点云上执行6自由度关系重新排列。这可以在各种形状、姿态和场景布局上进行多模态泛化。他们遵循的动机是通过迭代去噪物体的6自由度姿态,直到满足与场景点云的所需几何关系。
研究团队使用RPDiff在现实世界的物体和场景上执行基于抓取和放置的关系重新排列。该模型成功地完成了诸如将书放在部分填充的书架上、将罐子堆放在开放的架子上和将杯子挂在具有许多钩子的架子上等任务。他们的模型可以通过克服多模态数据拟合问题产生多模态分布,但在处理预训练数据表示时也存在局限性,因为他们的演示数据仅来自于模拟中的脚本策略。他们的工作与其他团队在通过实施神经形状匹配(NSM)进行感知的物体重新排列方面相关。