认识ClimSim:一个破坏性的多尺度气候模拟数据集,用于将机器学习和物理学融合于气候研究中

了解ClimSim:一款颠覆性的多尺度气候模拟数据集,将机器学习与物理学融合于气候研究中

数值物理模拟预测是指导气候变化政策的主要信息来源。尽管它们正在推动最强大的超级计算机的边界,但现有的气候模拟器需要模拟云和大雨等天气现象的物理性质。地球系统的复杂性严重限制了研究团队在这些模拟中可以使用的空间分辨率。“参数化”是对低于气候模拟的时间和地理分辨率的尺度上发生的物理现象进行经验数学表达的方法。遗憾的是,这些参数化中使用的假设经常导致可能会加剧未来气候变化的错误。

用于模拟比气候模拟器分辨率更小的尺度上发生的复杂非线性次分辨率物理过程的机器学习(ML)是一种引人注目的方法。其应用的有趣之处在于相比于现有的气候模拟,它将导致更准确、成本更低的气候模拟。现有气候模拟的最小可分辨尺度通常为80-200公里,相当于一个美国县的大小。然而,为了有效描述云的形成,需要100米或更细的分辨率,这就需要计算能力的数量级增加。

使用机器学习(ML)克服经典计算的限制仍然是一个可行的选择。由此产生的混合ML气候模拟器将ML模拟器与传统的数值方法相结合,用于求解地球大气层的大规模流体运动方程。这些模拟器直接学习由高分辨率、短时间模拟产生的数据,而不依赖对这些小尺度过程的启发式假设。本质上,这是一个回归问题:给定大尺度已解决的输入,气候模拟中的ML参数化模拟器返回大尺度的输出(如风、湿度或温度的变化),这些输出源于未解决的小尺度物理(次分辨率)。

尽管最近已经开发了几个概念证明,但混合ML气候模拟仍需要操作部署。阻碍ML社区感兴趣的主要障碍之一是获取足够的训练数据。用于训练的数据必须包含控制子分辨率物理行为的所有宏尺度因素,以使其适用于下游的混合ML气候模拟。已经证明,使用始终具有高分辨率模拟的训练数据来解决这个问题成本高昂,并且在与主要气候模拟结合时可能会引起问题。使用多尺度气候模拟技术产生训练数据是一种可行的方法。最重要的是,这些技术为主要气候模拟器的地球尺度动力学与模拟的高分辨率物理之间提供了明确的接口。理论上,这使得下游的混合耦合模拟变得可行和可访问。由于缺乏可用的数据集以及在选择变量时需要领域专业知识,操作模拟代码的复杂性和可用数据集的稀缺性阻碍了多尺度方法的实际应用。

作为用于混合ML气候模拟的参考,由20多个重要研究机构的研究人员组成的研究团队提出了ClimSim,这是一个训练机器学习模拟器的最大、最完整的数据集,用于气旋、云、湍流、降雨和辐射。ClimSim是多尺度物理气候模拟的全部输入和输出的集合。为了降低ML专家在这个重要问题上的入门难度,气候模拟器开发人员和大气科学家创建了ClimSim。他们的基准数据集为建立模拟云和严重降雨物理参数化以及它们与其他子分辨率现象的相互作用的强大框架提供了坚实的基础。通过在主要粗分辨率气候模拟器内实现在线耦合,这些框架有助于用于长期预测的气候模拟器的更准确运行。整体而言,它们可以提高模拟结果的整体表现。