使用Matplotlib可视化数据范围
利用Matplotlib进行数据范围可视化' (Lì yòng Matplotlib jìn xíng shù jù fàn wéi kě shì huà)
对NOAA的飓风预测进行基准测试

绘制离散数据很简单;代表数据范围则更复杂。幸好,Python的matplotlib库有一个内置的函数fill_between()
,可以让您轻松地可视化数据范围。在这个快速成功的数据科学项目中,我们将使用它来对比国家海洋和大气管理局(NOAA)每年的飓风预测。
数据集
每年五月,NOAA发布其“大西洋飓风展望”报告,其中包含了六月至十一月飓风季的预测范围。这些展望包括了命名风暴、飓风和强飓风(定义为3级及以上)的预测范围。您可以在这里找到2021年的示例报告[1]。NOAA/国家气象局的数据是由美国政府提供的开放数据,可免费用于任何目的。
为了对这些预测的准确性进行基准测试,我们将使用维基百科提供的年度飓风季总结。这些总结提供了每年的实际风暴和飓风数量。您可以在这里找到2021年的季节记录[2]。维基百科页面以CC BY-SA 4.0许可证提供。
维基百科还包括拉尼娜现象和厄尔尼诺现象 [3][4]的列表。这些代表了太平洋每隔几年出现的天气模式。在拉尼娜年份,东太平洋的水温比正常情况下更冷,使得其上方的空气冷却。而在厄尔尼诺年份,情况相反。
拉尼娜模式有利于大西洋盆地的强飓风活动,而厄尔尼诺则抑制飓风发展 [5]。为了验证这一点,我们还将为这些事件的绘图添加颜色代码。
为了方便起见,我已经将2001-2022年的所有这些信息编译并存储为CSV文件,您可以在这个Gist中找到。
NOAA每年8月发布一次更新的飓风预报,因此在选择数据和参考预测时要小心。我们将使用五月的展望。
安装库
我们将使用pandas进行数据处理和matplotlib进行绘图。可以使用以下命令来安装它们:
conda install matplotlib pandas