通过学习的等离子体控制加速融合科学进展
学习等离子体控制加速融合科学进展
成功地使用深度强化学习控制托卡马克中的核聚变等离子体
为了解决全球能源危机,研究人员长期以来一直在寻找一种清洁、无限的能源来源。核聚变,即能量源于宇宙中的恒星的反应,是其中之一。通过碰撞和聚合氢,一种常见的海水元素,这个强大的过程释放出巨大的能量。在地球上,科学家们模拟这些极端条件的一种方式是使用托卡马克,这是一个被磁线圈包围的圆环状真空室,用于容纳比太阳核心更热的氢等离子体。然而,这些设备中的等离子体天然不稳定,使得维持核聚变所需的过程变得复杂。例如,控制系统需要协调托卡马克的许多磁线圈,并且每秒调整它们的电压数千次,以确保等离子体永远不会接触容器的壁,否则会导致热量损失和可能的损坏。为了帮助解决这个问题,并作为DeepMind推进科学的使命的一部分,我们与EPFL的瑞士等离子体中心合作开发了第一个深度强化学习(RL)系统,以自主地发现如何控制这些线圈并成功地在托卡马克中容纳等离子体,为推进核聚变研究开辟了新的途径。
在今天发表在《自然》杂志上的一篇论文中,我们描述了如何通过在瑞士洛桑的可变配置托卡马克(TCV)上构建和运行控制器来成功地控制核聚变等离子体。使用结合了深度RL和模拟环境的学习架构,我们生成了可以稳定等离子体并能够精确塑造不同形状的控制器。这种“等离子体塑形”表明RL系统成功地控制了过热物质,并且重要的是,它使科学家能够研究等离子体在不同条件下的反应,改善我们对聚变反应堆的理解。
“在过去的两年中,DeepMind已经展示了人工智能加速科学进展和在生物学、化学、数学以及现在的物理学等领域开辟全新研究途径的潜力。” Demis Hassabis,DeepMind联合创始人兼首席执行官
这项工作是机器学习和专家社区共同应对重大挑战并加速科学发现的又一个有力例证。我们的团队正在努力将这种方法应用于量子化学、纯数学、材料设计、天气预报等领域,以解决基本问题并确保人工智能造福人类。
EPFL的可变配置托卡马克(TCV)的照片从外部看(左图,图片来源:SPC / EPFL)和从内部看(右图,图片来源:Alain Herzog / EPFL),以及带有容器和控制线圈的TCV的3D模型(中图,图片来源:DeepMind和SPC / EPFL):
在数据难以获取时学习
目前,核聚变研究的局限性在于研究人员进行实验的能力。虽然世界各地有数十个活跃的托卡马克,但它们是昂贵的设备且需求量大。例如,TCV每次实验只能维持等离子体三秒钟,之后需要15分钟冷却和重置才能进行下一次尝试。不仅如此,多个研究团队通常共享使用托卡马克,进一步限制了进行实验的时间。
鉴于目前难以接触到托卡马克,研究人员转向模拟器来帮助推进研究。例如,我们的合作伙伴EPFL已经构建了一套强大的模拟工具,可以模拟托卡马克的动力学。我们能够利用这些工具,使我们的RL系统在模拟中学习如何控制TCV,并在真实的TCV上验证我们的结果,证明我们能够成功地塑造所期望的等离子体形状。虽然这是一种更便宜、更方便的训练控制器的方法,但我们仍然需要克服许多障碍。例如,等离子体模拟器速度较慢,需要很多小时的计算时间来模拟一秒钟的真实时间。此外,TCV的状态可能会日复一日地发生变化,这要求我们开发算法改进,包括物理和模拟的改进,并适应硬件的实际情况。
通过优先考虑简洁和灵活性取得成功
现有的等离子体控制系统很复杂,需要为TCV的19个磁线圈分别设计控制器。每个控制器使用算法实时估计等离子体的特性,并相应地调整磁铁的电压。相比之下,我们的架构使用一个单一的神经网络同时控制所有线圈,自动学习哪些电压最适合实现等离子体配置,直接从传感器中获取信息。
作为示范,我们首先展示了我们可以通过一个控制器操控等离子体的多个方面。
在上面的视频中,我们可以看到在我们的系统接管控制的瞬间,等离子体位于TCV的顶部。我们的控制器首先根据请求的形状塑造等离子体,然后将等离子体向下移动并从壁壁脱离,将其悬停在容器中央的两条腿上。等离子体保持静止,以便测量等离子体的性质。最后,等离子体被引导回到容器的顶部并安全销毁。
然后,我们创建了一系列等离子体形状,这些形状正在被等离子体物理学家研究,以了解它们在能源生成中的有用性。例如,我们制作了一个带有许多“腿”的“雪花”形状,可以通过将排气能量分散到容器壁上不同的接触点来降低冷却成本。我们还展示了一个接近ITER(正在建设中的下一代托卡马克)提案的形状,因为EPFL正在进行有关ITER中等离子体行为的实验预测。我们甚至在TCV中完成了一项以前从未做过的事情,即稳定了一个“液滴”,在容器内同时存在两个等离子体。我们的单一系统能够为所有这些不同条件找到控制器。我们只需改变我们的目标请求,我们的算法就会自动找到一个合适的控制器。
聚变和未来
与我们在其他科学领域应用人工智能取得的进展类似,我们成功控制托卡马克证明了人工智能加速和辅助聚变科学的能力,我们预计在未来人工智能的使用将变得越来越复杂。这种自主创建控制器的能力可以用于设计新型托卡马克,同时设计其控制器。我们的工作还展示了强化学习在控制复杂机器方面的光明未来。特别令人兴奋的是,人工智能可以增强人类专业知识的领域,作为一种工具,用于发现解决困难实际问题的新颖方法。我们预计在未来几年,强化学习将成为工业和科学控制应用中具有变革性的技术,应用范围从能源效率到个性化医学等各个领域。