机器狗以 MJ 风格跳月步:这项 AI 研究提出使用以代码表示的奖励作为 LLM 与基于优化的动作控制器之间灵活的接口
近年来,人工智能行业已经占据了世界。几乎每天都有新的独特研究和模型发布,AI正在不断发展和变得更加优秀。无论我们考虑医疗保健领域、教育、营销还是业务领域,人工智能和机器学习实践开始改变产业运营方式。大语言模型(LLMs)的引入是AI领域的一个著名进步,几乎所有组织都在采用它。著名的LLMs,如GPT-3.5和GPT-4,展示了令人印象深刻的适应新场景的能力,可以通过最少的手工样本实现逻辑推理和代码生成等任务。
研究人员还研究了使用LLMs改善机器人控制在机器人领域的应用。由于低级别机器人操作是硬件相关的,并且LLM训练数据中经常被低估,因此将LLMs应用于机器人是困难的。以前的方法要么将LLMs视为语义规划器,要么依赖于由人类创建的控制原语与机器人进行通信。为了解决所有挑战,Google DeepMind的研究人员引入了一种新的范例,利用奖励函数的适应性和优化潜力来执行各种机器人活动。
奖励函数充当LLMs定义的中介接口,可以后期优化以指导机器人控制策略。由于奖励函数具有语义丰富性,因此它们适合由LLMs指定,因为它们可以有效地连接高级语言命令或更正与低级机器人行为。团队提到,通过使用奖励函数作为语言和低级机器人行为之间的接口在更高的抽象级别上操作,是因为观察到人类语言指令通常描述的是行为结果而不是特定的低级动作。通过将指令连接到奖励,可以更轻松地弥合语言和机器人行为之间的差距,因为奖励捕捉与期望结果相关的语义深度。
这个范例使用了MuJoCo MPC(模型预测控制)实时优化器,以实现交互式行为开发。用户能够立即观察结果并提供系统输入,从而改善迭代的细化过程。对于评估过程,研究人员为模拟四足机器人和灵巧操纵器机器人设计了一组17个任务。该方法能够可靠地完成90%的任务,而使用原始技能作为Code-as-policies接口的基线策略仅完成了50%的任务。也进行了在实际机械臂上的实验,以测试该方法的效率,交互式系统展示了复杂的操作技能,如非抓握式推动。
总之,这是一种有希望的方法,借助LLMs可以定义奖励参数并为机器人控制进行优化。LLM生成的奖励与实时优化技术的结合展示了一种交互式和反馈驱动的行为创建过程,使用户更有效地实现复杂的机器人行为。