我们可以将Hadoop与Python集成吗?

2024-04-20 10:24:54 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个项目要求。我使用python脚本来分析数据。最初,我使用txt文件作为python脚本的输入。但随着数据的增长,我不得不将我的存储平台切换到Hadoop HDFS。如何将HDFS数据作为输入提供给python脚本?有什么办法吗?提前谢谢。在


Tags: 文件数据项目txt脚本hadoop平台hdfs
2条回答

Hadoop流媒体API:

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper /bin/cat \
-reducer /bin/wc

你需要知道的是: http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/

除了其他方法,您还可以使用类似JDBC的编译、绑定、运行模型在Python脚本中嵌入Pig拉丁语句和Pig命令。对于Python,确保jythonjar包含在类路径中。请参阅这里的apachepig文档以获取更多详细信息:https://pig.apache.org/docs/r0.9.1/cont.html#embed-python

相关问题 更多 >