在Google Sheets中的探索性数据分析

在Google Sheets的数据分析

比较Google Sheets和Pandas方法

作者生成的图片

使用像Pandas或Jupyter这样的现代工具处理数据总是很好。但是假设有一个同事或朋友要求进行数据分析,但他/她不是技术人员,不使用Python或Jupyter,并且没有在Tableau、Power BI或任何其他花哨(但可惜不免费)的服务中拥有任何帐户。在这种情况下,由于以下几个原因,使用Google Sheets处理数据可能是一个不错的解决方法:

  • Google在全球范围内被广泛使用;在撰写本文时,有超过18亿用户拥有Google帐户。现在几乎每个人都有Google帐户,文档共享将非常容易。
  • Google的生态系统是安全和可靠的。它支持双因素身份验证和现代安全标准,甚至可以在有限的人群之间共享私有数据集。
  • 最后但并非不重要的是,该解决方案是免费的,不需要额外的费用。而且作为奖励,Google Sheets可以在浏览器中工作,不需要安装任何软件,并且可以在Windows、Linux、OSX甚至智能手机上工作。

在本文中,我将在Pandas中进行基本的探索性数据分析,然后我们将在Google Sheets中重复此过程,并看看它是如何工作的。

数据源

为了使事情更有趣,让我们使用一个真实的数据集。我们将制作一个计算太阳能电池板产生的能量的工具。为此,我将使用PVGIS(欧洲委员会光伏地理信息系统)数据,可以通过此URL(CC BY 4.0许可证)免费访问:

PVGIS界面,图片由作者提供

使用此页面,我们可以下载太阳辐射数据,从而可以计算能量产生。如屏幕截图所示,我们可以选择不同年份和不同位置的小时数据。在下载数据后,让我们在Pandas中使用它。

Pandas中的探索性数据分析(EDA)

让我们从Pandas中的探索性数据分析(EDA)开始。这总是更容易…