使用Pysp的AWS EMR Jupyterhub

2024-04-25 11:32:49 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试使用Spark、Hadoop、Jupyterhub、HUE、Hive和Zookeeper创建EMR集群(v5.28.0)

最初,当我打开一个带有Python3内核的jupyterhub笔记本并尝试使用pyspark创建一个spark上下文时,我得到了这个错误Exception: Java gateway process exited before sending its port number

我在google上搜索了错误消息,我认为我需要将javau设置为HOME。我在https://docs.aws.amazon.com/emr/latest/ReleaseGuide/configuring-java8.html找到了来自AWS的关于如何做到这一点的文档 我尝试在spark env和hadoop env上设置JAVA_HOME,但这会导致我的EMR群集无法创建,我发现以下错误:

spark_shell  ERROR    Spark is not enabled
Traceback (most recent call last):
  File "/usr/lib/hue/desktop/libs/notebook/src/notebook/connectors/spark_shell.py", line 38, in <module>
    from spark.conf import LIVY_SERVER_SESSION_KIND
ImportError: No module named spark.conf
hiveserver2  WARNING  Impala app is not enabled
spark_shell  ERROR    Spark is not enabled
Traceback (most recent call last):
  File "/usr/lib/hue/desktop/libs/notebook/src/notebook/connectors/spark_shell.py", line 38, in <module>
    from spark.conf import LIVY_SERVER_SESSION_KIND
ImportError: No module named spark.conf
hiveserver2  WARNING  Impala app is not enabled
hiveserver2  WARNING  Impala app is not enabled
hiveserver2  WARNING  Impala app is not enabled

以前有人遇到过这个问题吗?我猜我错过了一个配置步骤,但我已经能够找到任何文档。你知道吗


Tags: appisconf错误notenabledshellspark

热门问题