自动进化解决艰难任务
自动进化解决艰难任务' can be condensed to '自动进化解决任务
使用强化学习(RL,探索随机决策空间以获得获胜组合)的深度神经网络(DNN)可以创建出与人类为游戏、自然语言处理(NLP)、计算机视觉(CV)、教育、交通、金融、医疗和机器人技术等领域相媲美的算法,根据开创性论文《深度强化学习入门》(DRL)的介绍。
不幸的是,由于对初始超参数的敏感性(如DNN的宽度和深度,以及其他应用特定的初始条件),DNN的成功变得越来越难以实现。然而,最近通过将RL与进化计算(EC)相结合,这些限制已经被克服了。根据中国深圳南方科技大学、德国比勒费尔德大学和英国萨里大学的Ran Cheng和同事的合作研究,EC维护着一个具有独特初始条件的学习代理人群体,这些代理人共同“进化”出一个最优解。
通过从众多不同初始条件的进化学习代理人中进行选择,进化强化学习(EvoRL)将DRL的智能扩展到了像自动驾驶汽车和机器人等难以解决的跨学科人类任务中,根据英国华威大学运筹学和系统学教授、ACM新期刊《进化学习和优化交易》的主编Jurgen Branke的说法。
Branke表示:“自然采用了两种适应方式:进化和学习。因此,这两种范式的结合在“硅基”(即算法“进化”类似于“体内”生物进化)中也能取得成功,这似乎并不令人惊讶。”
强化学习
强化学习是深度神经网络的三种主要学习算法中最新的一种(DNN与经典的三层感知器不同,它增加了许多内部层,其功能由其程序员尚未完全理解,被称为黑盒子)。前两种主要DNN学习方法是有监督学习——从人类标记的数据中学习(例如鸟、汽车和花朵的照片,每个标记为相应的类别),以便学习识别和自动标记新的照片。第二种最流行的学习方法是无监督学习,它根据DNN的黑盒子发现的共同点将未标记的数据分组成喜欢和不喜欢的。
另一方面,强化学习将未标记的数据分组成喜欢的集合,但其目标是通过人类制定的评估函数最大化其累积奖励。结果是一个使用RL来超越其他学习方法的DNN,尽管仍然使用无法符合可知数数学模型的内部层。例如,在博弈论中,累积奖励将是赢得游戏。根据荷兰格罗宁根大学的Marco Wiering和雷布努德大学(奈梅亨,荷兰)的Martijn Otterlo在他们2012年的论文《强化学习》中所述,常用“优化”一词来描述通过强化学习获得的方法,尽管无法证明RL找到的“最佳行为”是“最”优的解决方案。
为此,RL探索解决方案空间中未知的角落,以查看它们是否能获得更优的奖励,并通过已经积累的知识促使DNN生成更优的解决方案。根据加拿大阿尔伯塔大学计算科学强化学习与人工智能教授、DeepMind的杰出研究科学家Richard Sutton与马萨诸塞大学阿默斯特分校计算机科学荣誉教授Andrew Bartow在他们2012年的论文《强化学习:一种介绍》中所述,强化学习随着向优化的进展而实现越来越高的累积奖励。
进化计算
另一方面,进化计算通过创建一个随机的问题解决智能体群体,然后通过对每个智能体进行“自然”选择(即丢弃最差的,突变其余的,并重复该过程)来“进化”它们。每个智能体都与一个适应度函数进行比较,就像“适者生存”一样。该过程根据需要重复多次,直到获得最优解,尽管这并不能保证完全最优。
当进化计算与强化学习(EvoRL)结合时,这种综合方法会使一群智能体进化——每个智能体都具有不同的应用特定初始条件,从而不再需要手动重新启动无法收敛到合适最优解的DRL。
华为(巴黎)诺亚方舟实验室的高级人工智能研究科学家Giuseppe Paolo表示:“EvoRL为解决复杂问题提供了一个强大的框架,它利用了强化学习和进化方法的优势。它允许智能体探索广泛的策略,从而发现新的策略,并促进自主系统的发展。”他还是ACM新杂志《进化学习和优化的交易》即将推出的特刊的客座编辑之一。
另一位客座编辑Adam Gaier是德国欧特克AI实验室的首席研究科学家,他补充道:“我们希望将这一综合领域引起两个领域的研究人员和实践者的注意,以鼓励进一步的探索。在特刊中,我们对该领域进行了广泛的回顾,还有新的原创研究,以及EvoRL在一个现实问题中的应用。因此,EvoRL是一个越来越活跃的领域,它将强化学习(RL)和进化计算相结合,以解决RL面临的主要障碍。虽然RL在复杂任务中表现出色,但它在初始设置值的敏感性、确定导致延迟奖励的动作以及解决冲突目标方面存在困难。另一方面,进化算法(EA)处理这些问题,但在处理数据稀缺和复杂的高维问题时表现不佳。EvoRL巧妙地结合了RL的优化和EA的基于种群的方法,增强了探索多样性,克服了EA的限制,同时增强了RL的优势。”
虽然单独的强化学习通常遵循评估函数提供的梯度以有效改进潜在解决方案,但进化计算首先从一组候选解决方案的种群开始,其初始条件是随机选择的。该种群通过由人提供的适应度函数进行评估。具有最低适应度的个体被丢弃,而其余个体通过进化计算进行突变,该过程重复直到达到优化的收益递减点。这使得进化过程对于陷入局部最优解(梯度下降方法的障碍)的程度较小,并且根据英国伦敦帝国学院计算机系自适应和智能机器人实验室的高级讲师Antoine Cully的说法,提供了“创造力”。
据特刊的客座编辑Cully表示:“进化强化学习领域是一个非常令人兴奋的研究领域,它将进化算法的创造力和探索能力与深度强化学习中的梯度下降的有效性相结合,使得复杂的神经网络策略能够得到优化。我们只是初步探索了这两个研究领域之间的协同作用,但已经显示出了成果。”
根据Cheng等人的研究,目前有六种主要的进化强化学习变体(如上图标题中所列)。效率是未来改进的主要方向,因为所有六种主要的进化强化学习算法都需要大量计算资源。在编码、采样方法、搜索算子、算法框架和适应度/评估方法方面需要改进。此外,还需要进行基准测试,但根据Cheng等人的说法,由于这六种基本方法使用不同的超参数和特定应用算法,这可能会很困难。还需要可扩展的平台,并且正在开发中,但大多数情况下仅限于其中一种或两种主要方法。
R. Colin Johnson 是京都奖学金获得者,担任技术记者已有20年的工作经验。