用IntelliJ IDEA编写和运行pyspark

2024-05-16 22:10:37 发布

您现在位置:Python中文网/ 问答频道 /正文

我正试图在IntelliJ中使用Pyspark,但我不知道如何正确安装它/设置项目。我可以在IntelliJ中使用Python,也可以使用pyspark shell,但是我不能告诉IntelliJ如何找到Spark文件(导入pyspark会导致“importterror:No module named pyspark”)。

任何关于如何包含/导入spark以便IntelliJ可以使用它的技巧都是值得赞赏的。

谢谢。

更新:

我试过这段代码:

from pyspark import SparkContext, SparkConf
spark_conf = SparkConf().setAppName("scavenge some logs")
spark_context = SparkContext(conf=spark_conf)
address = "C:\test.txt"
log = spark_context.textFile(address)

my_result = log.filter(lambda x: 'foo' in x).saveAsTextFile('C:\my_result')

包含以下错误消息:

Traceback (most recent call last):
File "C:/Users/U546816/IdeaProjects/sparktestC/.idea/sparktestfile", line 2, in <module>
spark_conf = SparkConf().setAppName("scavenge some logs")
File "C:\Users\U546816\Documents\Spark\lib\spark-assembly-1.3.1-hadoop2.4.0.jar\pyspark\conf.py", line 97, in __init__
File "C:\Users\U546816\Documents\Spark\lib\spark-assembly-1.3.1-hadoop2.4.0.jar\pyspark\context.py", line 221, in _ensure_initialized
File "C:\Users\U546816\Documents\Spark\lib\spark-assembly-1.3.1-hadoop2.4.0.jar\pyspark\java_gateway.py", line 35, in launch_gateway

File "C:\Python27\lib\os.py", line 425, in __getitem__
return self.data[key.upper()]
KeyError: 'SPARK_HOME'

Process finished with exit code 1

Tags: inpylibconfcontextlineusersdocuments
2条回答

设置程序运行/调试中(SPARK_HOMEPYTHONPATH)的环境路径 配置。

例如:

SPARK_HOME=/Users/<username>/javalibs/spark-1.5.0-bin-hadoop2.4/python/
PYTHON_PATH=/Users/<username>/javalibs/spark-1.5.0-bin-hadoop2.4/python/pyspark

请参阅IntelliJ Idea中的附加快照

Run/Debug configuration for PySpark

例如,这种东西:

from pyspark import SparkContext, SparkConf
spark_conf = SparkConf().setAppName("scavenge some logs")
spark_context = SparkContext(conf=spark_conf)
address = "/path/to/the/log/on/hdfs/*.gz"
log = spark_context.textFile(address)

my_result = (log.

...here go your actions and transformations...

).saveAsTextFile('my_result')

相关问题 更多 >