我可以将google数据流与本机python一起使用吗?

2024-06-17 13:03:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我正试图在谷歌云中构建一个python ETL管道,谷歌云数据流似乎是一个不错的选择。当我浏览文档和开发人员指南时,我看到ApacheBeam总是连接到数据流,因为它是基于它的。 我可能会发现在apache beam中处理数据帧时出现问题

我的问题是:

  • 如果我想用原生python和数据流构建我的ETL脚本,这可能吗?或者我的ETL需要使用ApacheBeam
  • 如果数据流只是为了使用ApacheBeam而构建的?是否有用于构建python ETL的无服务器google cloud工具(google cloud函数的执行时间为9分钟,这可能会导致我的管道出现一些问题,我希望避免执行限制)

我的管道旨在从BigQuery中读取数据并处理它,然后将其重新保存在BigQuery表中。我可以在脚本中使用一些外部API


Tags: 数据文档脚本cloud管道开发人员apachegoogle
2条回答

关于第一个问题,看起来Dataflow主要是为了在ApacheSDK中使用它而编写的,可以在官方的Google Cloud Documentation on Dataflow中查看。因此,在ETL中使用ApacheBeam实际上可能是一种需求

关于您的第二个问题,this tutorial为您提供了如何使用Python和Google云平台函数构建自己的ETL管道的指导,这些函数实际上是无服务器的。请确认此链接是否对您有所帮助

关于第一个问题,Dataflow需要使用apachebeam。事实上,在ApacheBeam出现之前,有一个叫做Dataflow SDK的东西,它是Google专有的,然后它向ApacheBeam开放源码

PythonBeamSDK非常容易,只要您投入一点精力,并且您需要的主要进程操作非常接近本机Python语言

如果您的最终目标是读取、处理和写入BQ,我认为Beam+数据流是一个很好的匹配

相关问题 更多 >