预计ETA将在使用python的apache beam GCP数据流管道中使用管道I/O和运行时参数?

2024-06-16 12:31:00 发布

您现在位置:Python中文网/ 问答频道 /正文

只是想知道新版本(3.X)的python是否提供了更多的管道I/O和运行时参数。如果我是正确的,那么当前ApacheBeam只提供基于文件的IOs:使用python时提供textio、avroio、tfrecordio。但在Java中,我们有更多的选项,如基于文件的IOs、BigQueryIO、BigtableIO、PubSubIO和SpanRio

在我的需求中,我希望使用Python3.X在GCP数据流管道中使用BigQueryIO,但目前它不可用。是否有人有一些关于ETA的更新,什么时候ApacheBeam可以使用它


Tags: 文件版本参数管道选项javaiosapachebeam
2条回答

Python3的BigTable连接器已经开发了一段时间了。目前,没有ETA,但是您可以从官方的ApacheBeam存储库中获取相关的Pull-Request,以获得进一步的更新

BigQueryIO在ApacheBeam Python SDK中已经有相当一段时间了

还有Pub/Sub IO availableBigTable (write)SpannerIO正在我们发言时进行工作

本页有更多详细信息https://beam.apache.org/documentation/io/built-in/

更新:

根据OP提供的更多细节,事实证明在BigQuery查询字符串中确实不支持使用值提供程序

这已在以下PR中得到纠正:https://github.com/apache/beam/pull/11040,很可能是2.21.0版本的一部分

更新2: Apache Beam的2.20.0版本中添加了此新功能 https://beam.apache.org/blog/2020/04/15/beam-2.20.0.html

希望它能解决你的问题

相关问题 更多 >