在树莓派上使用Apache Airflow收集数据

使用Apache Airflow在树莓派上高效收集数据

树莓派就是你所需要的一切

2021年款树莓派Zero,图片来源维基百科

通常情况下,我们需要在一定时间内收集一些数据。这可以是来自物联网传感器的数据,社交网络上的统计数据,或其他内容。以YouTube Data API为例,它允许我们获取任何频道在当前时间的观看次数和订阅者数量,但分析和历史数据仅对频道所有者可用。因此,如果我们想要获取这些频道的每周或每月摘要,我们需要自己收集这些数据。对于物联网传感器来说,可能根本没有API,我们还需要自己收集和保存数据。在本文中,我将展示如何在树莓派上配置Apache Airflow,以便在不涉及任何云服务提供商的情况下运行长时间的任务。

显然,如果您在一家大公司工作,您可能并不需要一个树莓派。在那种情况下,如果您需要额外的云实例,只需为您的MLOps部门创建一个Jira工单 😉 但对于个人项目或低预算的初创公司,它可能是一个有趣的解决方案。

让我们看看它是如何工作的。

树莓派

树莓派到底是什么呢?对于那些过去10年从未对硬件感兴趣的读者们(第一款树莓派模型于2012年推出),我可以简要解释一下,树莓派是一台运行完整Linux的单板计算机。通常,树莓派配备1GHz、2-4核ARM CPU和1-8MB的RAM。它小巧、便宜、无噪音;没有风扇和磁盘驱动器(操作系统从Micro SD卡中运行)。树莓派只需一台标准USB电源供应,可以通过Wi-Fi或以太网连接到网络,并在数月甚至数年内运行不同的任务。

对于我的数据科学个人项目,我想在2周内收集YouTube频道的统计数据。对于一个每天只需要30-60秒两次的任务,无服务器架构是一个完美的解决方案,我们可以使用类似Google Cloud Function的工具。但是,谷歌的每篇教程都以“为您的项目启用计费”开始。谷歌提供了免费的首次信用额和免费的配额,但我不想为此再增加额外的困扰…。