2024-04-20 10:24:54 发布
网友
我有一个项目要求。我使用python脚本来分析数据。最初,我使用txt文件作为python脚本的输入。但随着数据的增长,我不得不将我的存储平台切换到Hadoop HDFS。如何将HDFS数据作为输入提供给python脚本?有什么办法吗?提前谢谢。在
Hadoop流媒体API:
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ -input myInputDirs \ -output myOutputDir \ -mapper /bin/cat \ -reducer /bin/wc
你需要知道的是: http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/
除了其他方法,您还可以使用类似JDBC的编译、绑定、运行模型在Python脚本中嵌入Pig拉丁语句和Pig命令。对于Python,确保jythonjar包含在类路径中。请参阅这里的apachepig文档以获取更多详细信息:https://pig.apache.org/docs/r0.9.1/cont.html#embed-python
Hadoop流媒体API:
你需要知道的是: http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/
除了其他方法,您还可以使用类似JDBC的编译、绑定、运行模型在Python脚本中嵌入Pig拉丁语句和Pig命令。对于Python,确保jythonjar包含在类路径中。请参阅这里的apachepig文档以获取更多详细信息:https://pig.apache.org/docs/r0.9.1/cont.html#embed-python
相关问题 更多 >
编程相关推荐