触发GAE Cronjob中的Apache Beam(Python)运行

2024-06-07 09:04:20 发布

您现在位置:Python中文网/ 问答频道 /正文

在替换旧的appengine-mapreduce作业时,我需要一种从cron触发python数据流作业的方法。在

我读过https://cloud.google.com/blog/big-data/2016/04/scheduling-dataflow-pipelines-using-app-engine-cron-service-or-cloud-functions,但不清楚Python的完整翻译。在

云函数没有安装python,我不确定是否/如何能够安装可移植的python。因此,我假设从托管VM Python实例触发将更容易…据我所知,它将类似于:

  • 我使用的是GAE Flexible VMs(没有沙盒)。在
  • 我可以将apache的beam库(运行my_dataflow.py)包含到我的docker映像中。在
  • 我可以用projectpush上传这些文件,这样就可以从VM磁盘访问它们:my_dataflow.pysetup.py(安装我的库依赖项)和{}(因为我是针对PyPI上尚未发布的0.7.0api编写的)
  • 我可以在setup.pyapache-beam.tar.gz调用my_dataflow.run()指向管道选项。在

是这样,还是我错过了其他步骤?希望避免在这里错失良机,并担心在花了几个小时推搡和诋毁试图让这个工作,然后遇到已知的不可逾越的路障。在


Tags: 方法pyhttpscloudmyapache作业setup
1条回答
网友
1楼 · 发布于 2024-06-07 09:04:20

是的,模板当前仅限于Java。在

您可以使用此技术来代替定期调用管道。这不使用模板管道,而是启动普通管道。您可以通过运行子进程来启动管道来设置云函数来启动管道。调用cloud函数有多种方法。这个使用应用引擎cron服务。在

https://cloud.google.com/blog/big-data/2016/04/scheduling-dataflow-pipelines-using-app-engine-cron-service-or-cloud-functions

相关问题 更多 >

    热门问题