Hadoop:如何在Python MapReduce中包含第三方库
我正在用Python写一个MapReduce的任务,想要使用一些第三方库,比如 chardet
。
我知道在Java的MapReduce中,我们可以用选项 -libjars=...
来包含这些库。
但是在Python的MapReduce任务中,怎么才能包含第三方库呢?
谢谢!
1 个回答
1
这个问题通过 zipimport
解决了。
然后我把 chardet
压缩成了一个文件 module.mod
,用法如下:
importer = zipimport.zipimporter('module.mod')
chardet = importer.load_module('chardet')
在 Hadoop 流处理命令中添加 -file module.mod
。
现在可以在脚本中使用 chardet
了。
更多细节可以查看: 如何在 Hadoop 流处理作业中包含一个 Python 包?