如何在python中从HDFS sequencefile加载数据

hadoop jar /opt/mapr/hadoop/hadoop-0.20.2/contrib/streaming/hadoop-0.20.2-dev-streaming.jar -Dmapred.reduce.tasks=1000 -file $homedir/mapper.py -mapper $homedir/mapper.py -file $homedir/reducer.py -reducer $homedir/reducer.py -input /user/data/* -output /output/ 2> output.text

1条回答

网友

1楼 · 发布于 2024-05-14 12:34:07

看看this

在mapreduce作业之前在python文件下面运行
输入：序列文件
输出：您对mapreduce的输入

import sys

from hadoop.io import SequenceFile

if __name__ == '__main__':
    if len(sys.argv) < 3:
        print 'usage: SequenceFileReader <filename> <output>'
    else:
        reader = SequenceFile.Reader(sys.argv[1])

    key_class = reader.getKeyClass()
    value_class = reader.getValueClass()

    key = key_class()
    value = value_class()

    #reader.sync(4042)
    position = reader.getPosition()
    f = open(sys.argv[2],'w')
    while reader.next(key, value):
        f.write(value.toString()+'\n')
    reader.close()
    f.close()

现在不必更改原始的python文件。

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在python中从HDFS sequencefile加载数据

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >