斯坦福大学的研究人员介绍了RT-Sketch:通过手绘草图作为目标规范来提升视觉模仿学习的能力
RT-Sketch 斯坦福大学研究团队用手绘草图提升视觉模仿学习能力的突破性研究
研究人员引入手绘草图作为视觉模仿学习中指定目标的一种未被开发的方式。草图在自然语言的模糊性和图像过度详细的规范化之间提供了平衡,使用户能够迅速传达任务目标。他们的研究提出了RT-Sketch,一种以手绘草图作为输入并生成相应动作的目标条件化操纵策略。通过在配对轨迹和合成草图上进行训练,RT-Sketch 在各种操纵任务中展现出强大的性能,优于基于语言的代理在目标模糊或有视觉干扰的情况下。
这项研究深入研究了目标条件化模仿学习中的现有方法,并重点关注自然语言和图像等常规目标表示。它强调了这些表示的局限性,并强调了更抽象和精确的替代方案(例如草图)的需求。它还提到正在进行的将图像转换为草图的工作,以将其整合到基于目标的模仿学习中。它引用了以语言或图像为目标条件并探索两者结合的多模态方法的先前研究。还讨论了使用图像到草图转换的方法来对演示数据中的终端图像进行后见之明的重标记。
该方法指出了自然语言命令的缺点,它们可能不精确,以及目标图像的缺点,往往过于详细并且难以推广。它提出了手绘草图作为视觉模仿学习中指定目标的有前途替代方法,其比语言更具有特定性,并有助于消除任务相关对象的歧义。这些草图用户友好,已集成到现有的策略架构RT-Sketch中。该目标条件化策略以手绘草图作为输入并生成相应的动作。
- Meta 和GeorgiaTech的研究人员发布了一项新的数据集和相应的人工智能模型,以加快对直接空气捕集技术在应对气候变化方面的研究进展
- 精密聚类变得简单:kscorer自动选择最佳K-means聚类的指南
- ‘OpenAI宣布最新的模型GPT-4 Turbo’
RT-Sketch是一种操纵策略,它以手绘场景草图作为输入,并在配对轨迹和合成目标草图的数据集上进行训练。它修改了原始的RT-1策略,删除了FiLM语言标记化,并用将目标图像或草图与图像历史连接作为输入到EfficientNet的方法进行替换。训练采用行为克隆来最小化给定观测和草图目标的动作对数似然。图像转换成草图的生成网络通过为RT-Sketch训练增加了目标草图。该研究评估了RT-Sketch在处理不同细节的草图(包括自由绘制、线条和上色表示)时的熟练性。
该研究表明,RT-Sketch在简单场景中与基于图像或语言的代理相比表现出色。它在从手绘草图中实现目标方面表现出较高的鲁棒性。评估包括使用像素级距离测量空间精度以及使用7点Likert量表进行人工评估的语义和空间对齐性。虽然承认其局限性,该研究强调了需要测试RT-Sketch在来自不同用户的草图上的泛化能力以及偶发的错误技能执行。
总之,引入的RT-Sketch是一种目标条件化操纵策略,利用手绘草图,在各种操纵任务中展示出与已建立的基于语言或目标图像的策略相当的性能。它能够对抗视觉干扰和目标歧义的能力更强。RT-Sketch的灵活性可见于其能够理解具有不同特异性的草图,从简单的线条画到复杂的彩色插图。未来的研究可能会扩展手绘插图的用途,包括用于装配任务的结构化表示,例如示意图或图表。