在Hadoop和YARN上安装pyspark
我在 hadoop
和 yarn
上安装了 Spark。当我启动 pyspark shell
并尝试计算一些东西时,出现了这个错误。
Error from python worker:
/usr/bin/python: No module named pyspark
应该有 pyspark
模块,我需要添加一个外部链接吗?
1 个回答
1
我遇到过同样的问题。这个问题是因为用Java7来构建Spark。换成Java6就能解决。其实这是Python的问题——它的zipimport模块不支持Java7用来打包大Jar文件的Zip64格式,这种格式可以处理超过65536个文件。
这是我找到的一个有用的Google链接。
这个链接也解释了这个问题。