计划pyspark笔记本

2024-05-31 23:20:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个ipython笔记本,在集群上包含一些PySpark代码。目前我们正在使用oozie通过HUE在Hadoop上运行这些笔记本。设置感觉不太理想,我们想知道是否有其他选择。在

我们首先将.ipynb文件转换为.py文件并将其移动到hdfs。除了这个文件,我们还创建了一个.sh文件,它调用python文件。内容类似于:

#!/bin/sh
set -e

[ -r     /usr/local/virtualenv/pyspark/bin/activate ] &&
source /usr/local/virtualenv/pyspark/bin/activate

spark-submit --master yarn-client --<setting> <setting_val>  <filename>.py

接下来,我们让Oozie指向这个.sh文件。这个流程感觉有点麻烦,而且Oozie并没有给我们很好的洞察力,让我们知道什么地方出了问题。我们很喜欢Oozie知道如何根据您的配置以并行或串行方式运行任务。在

有没有更好、更流畅的方式来安排pyspark笔记本电脑?在


Tags: 文件pybinvirtualenvusrlocalshipython
1条回答
网友
1楼 · 发布于 2024-05-31 23:20:17

OOZIE-2482最近被添加到Oozie的主服务器中,这将使运行PySpark作业更容易。不幸的是,它还没有发布。在

可以将Spark操作添加到您的工作流中,应在标记中指定py文件。py文件和Spark版本的pyspark.zip文件还有py4jsrc.zip文件必须添加到工作流.xml它应该会起作用的。在

相关问题 更多 >