Pyspark—py文件不

conf = (SparkConf() .setMaster("yarn-client") .setAppName("LogAnalysis") .set("spark.executor.memory", "1g") .set("spark.executor.cores", "4") .set("spark.executor.num", "2") .set("spark.driver.memory", "4g") .set("spark.kryoserializer.buffer.mb", "128"))

14/12/25 05:09:53 WARN scheduler.TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, ip-172-31-10-8.cn-north-1.compute.internal): org.apache.spark.api.python.PythonException: Traceback (most recent call last): File "/home/hadoop/spark/python/pyspark/worker.py", line 75, in main command = pickleSer._read_with_length(infile) File "/home/hadoop/spark/python/pyspark/serializers.py", line 150, in _read_with_length return self.loads(obj) ImportError: No module named parser

[hadoop@ip-172-31-10-231 ~]$ python Python 2.7.8 (default, Nov 3 2014, 10:17:30) [GCC 4.8.2 20140120 (Red Hat 4.8.2-16)] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> import sys >>> sys.path.insert(1, '/home/hadoop/loganalysis/parser-src.zip') >>> from parser import parser >>> parser.parse <function parse at 0x7fa5ef4c9848> >>>

data = list(range(4)) disdata = sc.parallelize(data) result = disdata.map(lambda x: "sys.path: {0}\nDIR: {1} \n FILES: {2} \n parser: {3}".format(sys.path, os.getcwd(), os.listdir('.'), str(parser))) result.collect() print(result.take(4))

: An error occurred while calling o40.collect. : org.apache.spark.SparkException: Job aborted due to stage failure: Task 4 in stage 0.0 failed 4 times, most recent failure: Lost task 4.3 in stage 0.0 (TID 23, ip-172-31-10-8.cn-north-1.compute.internal): org.apache.spark.api.python.PythonException: Traceback (most recent call last): File "/home/hadoop/spark/python/pyspark/worker.py", line 75, in main command = pickleSer._read_with_length(infile) File "/home/hadoop/spark/python/pyspark/serializers.py", line 150, in _read_with_length return self.loads(obj) File "/home/hadoop/spark/python/pyspark/cloudpickle.py", line 811, in subimport __import__(name) ImportError: ('No module named parser', <function subimport at 0x7f219ffad7d0>, ('parser.parser',))

3条回答

网友

1楼 · 编辑于 2024-04-18 21:49:05

尝试从方法本身内部导入自定义模块，而不是从驱动程序脚本的顶部导入，例如：

def parse_record(record):
    import parser
    p = parser.parse(record)
    return p

而不是

import parser
def parse_record(record):
    p = parser.parse(record)
    return p

Cloud Pickle似乎无法识别何时导入了自定义模块，因此它似乎试图Pickle顶级模块以及运行该方法所需的其他数据。根据我的经验，这意味着顶层模块似乎存在，但它们缺少可用的成员，并且嵌套模块不能按预期使用。一旦使用from A import *导入或从方法（import A.B）内部导入，模块就会按预期工作。

网友

2楼 · 编辑于 2024-04-18 21:49:05

尝试SparkContext的此函数

sc.addPyFile(path)

根据pyspark文档here

Add a .py or .zip dependency for all tasks to be executed on this SparkContext in the future. The path passed can be either a local file, a file in HDFS (or other Hadoop-supported filesystems), or an HTTP, HTTPS or FTP URI.

尝试将python模块文件上传到公共云存储（例如AWS S3）并将URL传递给该方法。

这里有一个更全面的阅读材料：http://www.cloudera.com/documentation/enterprise/5-5-x/topics/spark_python.html

网友

3楼 · 编辑于 2024-04-18 21:49:05

听起来有一个或多个节点配置不正确。集群上的所有节点是否都具有相同版本/配置的Python（即，它们都安装了解析器模块）？

如果不想逐个检查，可以编写一个脚本来检查它是否已安装/是否已为您安装。This线程显示了一些方法。

相关问题更多 >

编程相关推荐

热门问题

热门文章