Airflow Dataproc操作员运行shell脚本

2024-04-16 05:20:32 发布

您现在位置:Python中文网/ 问答频道 /正文

有没有直接的方法可以在dataproc集群中运行shell脚本。目前我可以通过pysparkoperator(它调用另一个python文件,然后这个python文件调用shell脚本)运行shell。我已经搜索了许多链接,但到目前为止还没有找到任何直接的方法。在

如果有人能告诉我最简单的方法,那对我真的很有帮助。在


Tags: 文件方法脚本链接集群shelldataprocpysparkoperator
2条回答

带有sh运算符的清管器作业[1]:gcloud dataproc jobs submit pig ... -e 'sh ls'

但我很好奇最终目标是什么?为什么要运行shell脚本?如果您的目的是执行一次性集群设置,那么您应该使用初始化操作[2]。在

[1]https://pig.apache.org/docs/r0.9.1/cmds.html#sh

[2]https://cloud.google.com/dataproc/docs/concepts/init-actions

您可以使用airflowBashOperator并使用以下命令:

gcloud compute ssh user@server  zone your_cluster_zone \
   command='Your Command'

示例:

^{pr2}$

相关问题 更多 >