使用人工智能在量子尺度上模拟物质

使用人工智能模拟量子物质

解决21世纪的一些重大挑战,如生产清洁电力或开发高温超导体,需要我们设计具有特定属性的新材料。要在计算机上完成这项工作,需要模拟电子的行为,电子是控制原子结合形成分子并在固体中负责电流流动的亚原子粒子。尽管经过数十年的努力和几项重大进展,准确模拟电子的量子力学行为仍然是一个未解之谜。现在,在Science杂志上发表的一篇论文(开放获取的PDF)中,我们提出了DM21,这是一个神经网络,在化学的大部分领域实现了最先进的准确度。为了加速科学进步,我们还开源了我们的代码供任何人使用。

近一个世纪前,埃尔温·薛定谔提出了他著名的量子力学粒子行为方程。将这个方程应用于分子中的电子是具有挑战性的,因为所有电子都会互相排斥。这似乎需要追踪每个电子位置的概率,即使是对于少量的电子来说,这也是一项非常复杂的任务。一个重大突破发生在20世纪60年代,当时皮埃尔·霍恩伯格和沃尔特·科恩意识到,无需单独跟踪每个电子。相反,只需要知道任何电子在每个位置的概率(即电子密度)就足以完全计算所有相互作用。科恩因证明了这一点而获得了化学诺贝尔奖,从而奠定了密度泛函理论(DFT)的基础。

尽管DFT证明了存在一种映射关系,但在50多年的时间里,电子密度和相互作用能量之间的这种映射的确切性质(即所谓的密度泛函)仍然未知,并且必须进行近似。尽管DFT本质上涉及一定级别的近似,但它是研究物质在微观水平上如何以及为什么以某种方式行为的唯一实用方法,因此已成为科学界最广泛使用的技术之一。多年来,研究人员提出了许多近似方法来近似精确泛函,其准确性各不相同。尽管这些方法非常受欢迎,但所有这些近似都存在系统误差,因为它们无法捕捉到确切泛函的某些重要数学性质。

通过将泛函表示为神经网络,并将这些确切性质纳入训练数据中,我们可以学习到没有重要系统误差的泛函,从而更好地描述广泛类别的化学反应。

我们特别解决了传统泛函存在的两个长期问题:

  • 分散误差:在DFT计算中,泛函通过找到使能量最小化的电子配置来确定分子的电荷密度。因此,泛函中的错误可能导致计算得到的电子密度的错误。大多数现有的密度泛函近似倾向于将电子密度不现实地扩散到几个原子或分子上,而不是正确地局限在单个分子或原子周围(参见图2)。
  • 自旋对称性破缺:在描述化学键的断裂时,现有的泛函倾向于不现实地选择破坏称为自旋对称性的基本对称性的配置。由于对称性在我们对物理学和化学的理解中起着重要作用,这种人为的对称性破缺揭示了现有泛函的主要缺陷。

原则上,任何涉及电荷移动的化学物理过程都可能受到分散误差的影响,而任何涉及键的断裂的过程都可能受到自旋对称性破裂的影响。电荷的移动和键的断裂是许多重要技术应用的核心,但这些问题也可能导致泛函在描述最简单的分子(如氢)时产生严重的定性失败。由于DFT是如此关键的技术,因此在要求其解释更复杂的分子相互作用(例如在电池或太阳能电池中可能发生的相互作用)之前,设计能够正确描述这种简单化学的泛函变得非常重要。

Fig 2 | Left: Traditional functional (B3LYP) predicts charge is smeared over two adjacent molecules. Right: Learned functional (DM21) correctly localises charge on one molecule.

这些长期存在的挑战与功能性质在面对表现出“分数电子特性”的系统时的行为有关。通过使用神经网络来表示功能性质,并调整我们的训练数据集以捕捉预期的精确功能性质所期望的分数电子行为,我们发现我们可以解决去局化和自旋对称性破坏的问题。我们的功能性质在广泛的大规模基准测试中也表现出高度的准确性,这表明这种数据驱动的方法可以捕捉到迄今为止难以捉摸的精确功能性质的一些方面。

多年来,计算机模拟在现代工程中发挥了核心作用,使得能够可靠地回答诸如“这座桥会不会倒塌?”到“这枚火箭能否进入太空?”等问题。随着技术越来越多地转向量子尺度来探索材料、药物和催化剂等方面的问题,甚至包括我们从未见过或甚至想象过的问题,深度学习显示出在这个量子力学水平上准确模拟物质的潜力。