2024-06-17 13:03:58 发布
网友
我正试图在谷歌云中构建一个python ETL管道,谷歌云数据流似乎是一个不错的选择。当我浏览文档和开发人员指南时,我看到ApacheBeam总是连接到数据流,因为它是基于它的。 我可能会发现在apache beam中处理数据帧时出现问题
我的问题是:
我的管道旨在从BigQuery中读取数据并处理它,然后将其重新保存在BigQuery表中。我可以在脚本中使用一些外部API
关于第一个问题,看起来Dataflow主要是为了在ApacheSDK中使用它而编写的,可以在官方的Google Cloud Documentation on Dataflow中查看。因此,在ETL中使用ApacheBeam实际上可能是一种需求
关于您的第二个问题,this tutorial为您提供了如何使用Python和Google云平台函数构建自己的ETL管道的指导,这些函数实际上是无服务器的。请确认此链接是否对您有所帮助
关于第一个问题,Dataflow需要使用apachebeam。事实上,在ApacheBeam出现之前,有一个叫做Dataflow SDK的东西,它是Google专有的,然后它向ApacheBeam开放源码
PythonBeamSDK非常容易,只要您投入一点精力,并且您需要的主要进程操作非常接近本机Python语言
如果您的最终目标是读取、处理和写入BQ,我认为Beam+数据流是一个很好的匹配
关于第一个问题,看起来Dataflow主要是为了在ApacheSDK中使用它而编写的,可以在官方的Google Cloud Documentation on Dataflow中查看。因此,在ETL中使用ApacheBeam实际上可能是一种需求
关于您的第二个问题,this tutorial为您提供了如何使用Python和Google云平台函数构建自己的ETL管道的指导,这些函数实际上是无服务器的。请确认此链接是否对您有所帮助
关于第一个问题,Dataflow需要使用apachebeam。事实上,在ApacheBeam出现之前,有一个叫做Dataflow SDK的东西,它是Google专有的,然后它向ApacheBeam开放源码
PythonBeamSDK非常容易,只要您投入一点精力,并且您需要的主要进程操作非常接近本机Python语言
如果您的最终目标是读取、处理和写入BQ,我认为Beam+数据流是一个很好的匹配
相关问题 更多 >
编程相关推荐