德州大学奥斯汀分校研究人员推出了LIBERO:一个终身机器人学习基准,以研究大规模决策和机器人领域的知识传递

德州大学奥斯汀分校推出LIBERO:终身机器人学习基准,探索大规模决策和机器人领域的知识传递

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-24-at-2.11.40-PM-1024×569.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-24-at-2.11.40-PM-150×150.png”/><p>LIBERO是机器人操控领域的终生学习基准,专注于声明性和过程性领域中的知识传输。它引入了终生学习决策制定(LLDM)中的五个关键研究领域,并提供了一个包含130个任务的过程性任务生成流水线。实验结果显示,与现有的LLDM方法相比,顺序微调的优势在于前向传输。视觉编码器架构性能各异,纯朴的监督预训练可能会阻碍LLDM代理。该基准包含了所有任务的高质量人-远程操作演示数据。</p><p>来自德克萨斯大学奥斯汀分校、Sony AI和清华大学的研究人员致力于开发一种能够执行各种任务的多功能终身学习代理。他们的研究介绍了LIBERO,一个专注于机器人操控的终身学习决策的基准。与现有文献强调声明性知识传输不同,LIBERO探索了声明性和过程性知识的传递。它提供了一个过程性任务生成流水线和高质量的人-远程操作数据。它旨在研究知识传输、神经架构设计、算法设计、任务顺序稳健性和预训练模型利用等关键LLDM研究领域。</p><p>在终身机器人学习中,使用了三个视觉语言策略网络:RESNET-RNN、RESNET-T和VIT-T。这些网络集成了视觉、时间和语言数据来处理任务指令。语言指令使用预训练的BERT嵌入进行编码。RESNET-RNN结合了ResNet和LSTM进行视觉和材料处理。RESNET-T使用ResNet和Transformer解码器处理可见和时间标记序列。VIT-T利用Vision Transformer处理视觉数据,并使用Transformer解码器处理时间数据。通过行为克隆实现了个别任务的策略训练,以在计算资源有限的情况下提供高效的策略学习。</p><p>他们的研究比较了终身学习决策任务的神经架构,RESNET-T和VIT-T表现优于RESNET-RNN,突出了Transformer在时间处理中的有效性。终身学习算法的性能因素各异:PACKNET在除LIBERO-OBJECT之外的所有任务套件中,RESNET-T和VIT-T之间没有显著差异,而在LIBERO-LONG任务套件中,VIT-T表现卓越。然而,使用ER,RESNET-T在除LIBERO-OBJECT之外的所有任务套件上表现优于VIT-T,展示了ViT处理多样化视觉信息的能力。顺序微调在前向传输中表现优越,而纯朴的监督预训练阻碍了代理,强调了策略性预训练的必要性。</p><p>总之,他们提出的LIBERO方法是终身机器人学习的重要基准,涵盖了关键的研究领域,并提供了宝贵的见解。值得注意的发现包括顺序微调的有效性,视觉编码器架构对知识传输的影响以及纯朴的监督预训练的局限性。他们的工作提示了神经架构设计、前向传输的算法改进以及利用预训练的重要性。此外,它强调在终身学习人类互动中长期用户隐私的重要性。</p><p>未来的研究应重点关注开发更高效的神经架构来处理空间和时间数据。加强前向传输能力的先进算法的开发是关键。此外,研究预训练方法以提升终身学习性能仍然是一个关键的研究方向。这些努力在推进终身机器人学习和决策制定领域的发展,提高效率和适应性方面至关重要。</p>