Google Pub/Sub到BigQuery的简单方式

Google Pub/Sub 到 BigQuery 的简单方式

实现Pub/Sub中的BigQuery订阅以实现简单的消息和流式输入的实践指南

Google的最新全球范围数据仓库订阅式流式输入水上军事能力:BigSub。在这种情况下,Pub从未发布到正式版本,所以你必须从其他地方获取你的品味。照片由Thomas Haas在Unsplash上提供

动机

过去我遇到过许多情况,我想将Pub/Sub消息放入BigQuery表中,但我从未找到一种特别简单的方法来实现这一点。

你可以设置一个数据流水线,但这需要额外的基础设施来理解、配置、管理和调试。此外,Dataflow(一个托管的Apache Beam服务)是为高吞吐量流式处理而设计的,所以对于一个简单的消息记录或监控系统来说,似乎有点过于复杂。

而且它是Java。但是Python 😀!还有Java… 😫!

public static string args void main... public static string args void main... public static string args void main... public static string args void main... public static string args void main... arrrrrrrrrrrrgh

对不起,我仍然会回想起我学习编程的第一次尝试(上个世纪)的Java经历。请不要尝试使用那段代码… 远离那段代码。

然后我偶然发现了这个,虽然它承诺简单性,但似乎比之前的方法(Debezium是什么鬼?)更复杂!

还可以部署一个轻量级的Cloud Function,在接收到Pub/Sub消息时触发并将其流式传输或加载到BigQuery中,但对于这样一个本来应该是本地功能的东西来说,这似乎还是有点复杂。

而现在它实现了!

谷歌云的友好人员们在一段时间前宣布了Pub/Sub直接连接到BigQuery,太棒了!然而,我尝试(并失败)多次快速设置一个测试后,我最终有一个真实的用例需要我为客户使其工作。

事实证明,有一些细微之处,所以本文旨在帮助您尽快启动并运行它。

情况

Pub/Sub是Google Cloud生态系统中一个非常有用、强大且可伸缩的服务,有两个核心用例:流式…