加州大学洛杉矶分校的研究员开发了一个名为ClimateLearn的Python库,用于以标准化和简单的方式访问最先进的气候数据和机器学习模型
加州大学洛杉矶分校研究员开发了名为ClimateLearn的Python库,用于简化访问最先进的气候数据和机器学习模型
极端天气条件已成为常见现象,特别是近年来。气候变化是导致此类极端天气相关现象的主要因素,从巴基斯坦的暴雨淹没该国大片领土到葡萄牙和西班牙的异常热浪引发的野火。如果不采取适当的行动,地球的平均表面温度预计在未来十年内将上升约四度。科学家们表示,这种温度上升将进一步导致更频繁的极端天气事件的发生。
广义环流模型(GCMs)是科学家们用来预测未来天气和气候的工具。GCMs是一组微分方程系统,可以随时间积分,产生各种变量的预测,包括温度、风速、降水等。这些模型非常简单易懂,并产生了相当准确的结果。然而,这些模型的核心问题在于执行模拟需要大量计算能力。此外,当有大量训练数据时,模型的微调变得困难。
这就是机器学习技术被证明有用的地方。特别是在“天气预报”和“空间降尺度”方面,这些算法已经证明与更成熟的气候模型竞争力相当。天气预报是指预测未来的气候变量。例如,我们必须使用上周每日降雨量(以厘米为单位)的信息来预测下周梅加拉亚的降雨量。空间降尺度的问题是将粗糙的气候模型预测结果从100公里×100公里的网格降尺度到1公里×1公里。
预测和降尺度可以类比于各种计算机视觉任务。然而,天气预报、空间降尺度和其他计算机视觉任务的主要区别在于,机器学习模型需要利用各种模态的外部输入。例如,湿度和风速等多个要素以及历史地表温度将对未来地表温度产生影响。这些变量必须作为输入提供给模型,同时还包括地表温度。
近年来,深度学习研究蓬勃发展,研究机器学习和气候变化的科学家们现在正在探索深度学习技术如何解决天气预报和空间降尺度问题。在应用机器学习方面,两者采取了不同的方法。研究机器学习的科学家更加注重哪种架构最适合哪些问题,以及如何以适合现代机器学习方法的方式处理数据,而气候科学家更多地使用物理方程,并牢记必要的评估指标。
然而,模糊的语言(气候模型中的“偏差”与机器学习中的“偏差”),在应用机器学习于气候科学挑战中的标准化缺乏以及对气候数据分析的专业知识的缺乏,都妨碍了它们充分发挥潜力的能力。为了解决这些问题,加利福尼亚大学洛杉矶分校(UCLA)的研究人员开发了ClimateLearn,这是一个Python包,可以方便、标准化地访问大量气候数据和尖端的机器学习模型。该包提供了各种数据集、最新的基准模型以及一组度量和可视化工具,可以对天气预报和空间降尺度技术进行大规模基准测试。
ClimateLearn以当前深度学习架构可以轻松利用的数据格式提供数据。该包包括来自ERA5的数据,ERA5是历史全球气候的第五代再分析,以及来自欧洲中期气象台(ECMWF)的气象数据。再分析数据集使用建模和数据同化技术将历史数据融合到全球估计中。通过这种真实数据和建模的组合,再分析解决方案可以具有相当准确的整个全球数据。除了原始的ERA5数据外,ClimateLearn还支持来自WeatherBench的预处理ERA5数据,WeatherBench是用于数据驱动的天气预报的基准数据集。
ClimateLearn中实现的基准模型经过精心调整,适用于气候任务,甚至可以轻松扩展到气候科学中的其他下游流程。ClimateLearn支持一系列标准机器学习算法,例如线性回归、持续性、气候学等简单统计技术。还提供了更复杂的深度学习算法,如残差卷积神经网络、U-net和视觉转换器。该包还提供了快速可视化模型预测的支持,使用度量标准如(纬度加权的)均方根误差、异常相关系数和皮尔逊相关系数。此外,ClimateLearn还提供了模型预测、实际情况和两者之间差异的可视化。
研究人员开发ClimateLearn的主要目标是通过使气候数据集易于访问、提供基准模型供简单比较以及可视化指标来缩小气候科学和机器学习社区之间的差距。在不久的将来,研究人员计划添加对新数据集的支持,比如CMIP6(第六代气候建模比较项目)。团队还将支持带有新的不确定性量化指标和几种机器学习方法(如贝叶斯神经网络和扩散模型)的概率预测。通过了解模型性能、表达能力和鲁棒性,机器学习研究人员可以开启更多机会,这让研究人员感到非常热情。此外,气候科学家将能够理解改变输入变量的值将如何改变结果的分布。团队还计划将该软件包开源,并期待社区的贡献。