Hadoop:如何在Python MapReduce中包含第三方库

1 投票
1 回答
2676 浏览
提问于 2025-04-17 18:46

我正在用Python写一个MapReduce的任务,想要使用一些第三方库,比如 chardet

我知道在Java的MapReduce中,我们可以用选项 -libjars=... 来包含这些库。

但是在Python的MapReduce任务中,怎么才能包含第三方库呢?

谢谢!

1 个回答

1

这个问题通过 zipimport 解决了。

然后我把 chardet 压缩成了一个文件 module.mod,用法如下:

importer = zipimport.zipimporter('module.mod')
chardet = importer.load_module('chardet')

在 Hadoop 流处理命令中添加 -file module.mod

现在可以在脚本中使用 chardet 了。

更多细节可以查看: 如何在 Hadoop 流处理作业中包含一个 Python 包?

撰写回答