谷歌云数据流+批处理

2024-06-08 14:03:28 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在构建一个基础设施,在这里我想分别接收热数据和冷数据。对于热数据,我将数据写入Cloud Paner,对于冷数据,我希望将数据写入更持久的东西,比如BigQuery

我正在使用流式服务中的数据,但我想利用BigQuery的缓存机制——如果我一直将冷数据流式传输到BigQuery中,这是不可能的。我的问题是,是否可以将流管道分叉为批处理管道,并将流管道连接到扳手,将批处理管道连接到BigQuery

我可以设想将冷数据写入云存储,并使用cron作业将数据读入BigQuery,但是有没有更好的/本机方式来实现流+批处理分割


Tags: 数据cloud利用管道作业方式基础设施流式
1条回答
网友
1楼 · 发布于 2024-06-08 14:03:28

虽然数据流确实有批处理和流处理执行模式,但您可以使用流处理模式来执行批处理模式下可以执行的任何操作(成本和可伸缩性可能有所不同)。因为您的输入是一个流,也就是一个无限的数据源,所以您的管道将自动以流模式运行

听起来,写入BigQuery的^{}方法可能是您想要的,您可以使用^{}来管理写入数据的频率

相关问题 更多 >