我用这个作为文档建议http://spark.apache.org/docs/1.1.1/submitting-applications.html
spsark版本1.1.0
./spark/bin/spark-submit --py-files /home/hadoop/loganalysis/parser-src.zip \
/home/hadoop/loganalysis/ship-test.py
以及代码中的conf:
conf = (SparkConf()
.setMaster("yarn-client")
.setAppName("LogAnalysis")
.set("spark.executor.memory", "1g")
.set("spark.executor.cores", "4")
.set("spark.executor.num", "2")
.set("spark.driver.memory", "4g")
.set("spark.kryoserializer.buffer.mb", "128"))
从节点抱怨
14/12/25 05:09:53 WARN scheduler.TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, ip-172-31-10-8.cn-north-1.compute.internal): org.apache.spark.api.python.PythonException: Traceback (most recent call last):
File "/home/hadoop/spark/python/pyspark/worker.py", line 75, in main
command = pickleSer._read_with_length(infile)
File "/home/hadoop/spark/python/pyspark/serializers.py", line 150, in _read_with_length
return self.loads(obj)
ImportError: No module named parser
parser-src.zip在本地测试。
[hadoop@ip-172-31-10-231 ~]$ python
Python 2.7.8 (default, Nov 3 2014, 10:17:30)
[GCC 4.8.2 20140120 (Red Hat 4.8.2-16)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import sys
>>> sys.path.insert(1, '/home/hadoop/loganalysis/parser-src.zip')
>>> from parser import parser
>>> parser.parse
<function parse at 0x7fa5ef4c9848>
>>>
我想知道远程工作者的信息。看看它是否复制了文件。sys.path是什么样子的..而且很棘手。
更新: 我用这个发现zip文件被寄出了。设置了sys.path。仍然导入获取错误。
data = list(range(4))
disdata = sc.parallelize(data)
result = disdata.map(lambda x: "sys.path: {0}\nDIR: {1} \n FILES: {2} \n parser: {3}".format(sys.path, os.getcwd(), os.listdir('.'), str(parser)))
result.collect()
print(result.take(4))
看来我必须深入研究cloudpickle,这意味着我需要先了解cloudpickle是如何工作和失败的。
: An error occurred while calling o40.collect.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 4 in stage 0.0 failed 4 times, most recent failure: Lost task 4.3 in stage 0.0 (TID 23, ip-172-31-10-8.cn-north-1.compute.internal): org.apache.spark.api.python.PythonException: Traceback (most recent call last):
File "/home/hadoop/spark/python/pyspark/worker.py", line 75, in main
command = pickleSer._read_with_length(infile)
File "/home/hadoop/spark/python/pyspark/serializers.py", line 150, in _read_with_length
return self.loads(obj)
File "/home/hadoop/spark/python/pyspark/cloudpickle.py", line 811, in subimport
__import__(name)
ImportError: ('No module named parser', <function subimport at 0x7f219ffad7d0>, ('parser.parser',))
更新:
有人在spark 0.8中遇到同样的问题 http://apache-spark-user-list.1001560.n3.nabble.com/pyspark-Importing-other-py-files-in-PYTHONPATH-td2301.html
但他把自己的lib放在python dist包和导入工程中。我试过了,但还是出现了导入错误。
更新:
哦,喷。。我认为这个问题是由于不理解zip文件和python导入行为导致的..我将parser.py传递给--py文件,它可以工作,并抱怨另一个依赖关系。 只压缩.py文件(不包括.pyc)似乎也能工作。
但我不太明白为什么。
尝试从方法本身内部导入自定义模块,而不是从驱动程序脚本的顶部导入,例如:
而不是
Cloud Pickle似乎无法识别何时导入了自定义模块,因此它似乎试图Pickle顶级模块以及运行该方法所需的其他数据。根据我的经验,这意味着顶层模块似乎存在,但它们缺少可用的成员,并且嵌套模块不能按预期使用。一旦使用
from A import *
导入或从方法(import A.B
)内部导入,模块就会按预期工作。尝试
SparkContext
的此函数根据
pyspark
文档here尝试将python模块文件上传到公共云存储(例如AWS S3)并将URL传递给该方法。
这里有一个更全面的阅读材料:http://www.cloudera.com/documentation/enterprise/5-5-x/topics/spark_python.html
听起来有一个或多个节点配置不正确。集群上的所有节点是否都具有相同版本/配置的Python(即,它们都安装了解析器模块)?
如果不想逐个检查,可以编写一个脚本来检查它是否已安装/是否已为您安装。This线程显示了一些方法。
相关问题 更多 >
编程相关推荐