在Hadoop和YARN上安装pyspark

0 投票
1 回答
1155 浏览
提问于 2025-04-18 11:23

我在 hadoopyarn 上安装了 Spark。当我启动 pyspark shell 并尝试计算一些东西时,出现了这个错误。

Error from python worker:
  /usr/bin/python: No module named pyspark

应该有 pyspark 模块,我需要添加一个外部链接吗?

1 个回答

1

我遇到过同样的问题。这个问题是因为用Java7来构建Spark。换成Java6就能解决。其实这是Python的问题——它的zipimport模块不支持Java7用来打包大Jar文件的Zip64格式,这种格式可以处理超过65536个文件。

这是我找到的一个有用的Google链接。

这个链接也解释了这个问题。

撰写回答