pyspark:运行Python脚本并在命令行中查看结果

2024-06-01 02:33:13 发布

您现在位置:Python中文网/ 问答频道 /正文

我在pyspark1.6.2中执行了一个python脚本文件(出于认证培训的原因,是一个旧的脚本文件)。在

spark-submit --master yarn-cluster s01.py

运行时,它只返回“应用程序的应用程序报告”somelongnumber。我所期望的是,它显示了我的脚本命令的输出。这样我就可以检查我的显影是否正确。我该怎么做才能得到我想要的?在

我的剧本内容:

^{pr2}$

更新 :当我执行pyspark s01.py时,我会看到我的结果,但这不是预期的行为,因为我希望在集群上使用参数执行它。在


Tags: 文件py命令master脚本应用程序报告原因
1条回答
网友
1楼 · 发布于 2024-06-01 02:33:13

1)打印报表在纱线模式下不起作用。相反,请使用foreach,如下所示:

myRDD.collect().foreach(println)

2)调试时应使用yarn客户机模式,而不是yarn cluster,在这种情况下,将在执行spark submit命令的机器上创建spark驱动程序。在

3)在纱线簇模式下执行spark命令时。在执行期间,控制台上看不到日志。有一个用应用程序id生成的URL。您可以在给定的URL上检查日志。在

或者,在执行完成后,您可以使用以下命令将日志从集群下载到本地计算机:

^{pr2}$

相关问题 更多 >