如何在python中从HDFS sequencefile加载数据

2024-04-27 21:18:10 发布

您现在位置:Python中文网/ 问答频道 /正文

我运行了一个map reduce程序来读取HDFS文件,如下所示:

hadoop jar /opt/mapr/hadoop/hadoop-0.20.2/contrib/streaming/hadoop-0.20.2-dev-streaming.jar -Dmapred.reduce.tasks=1000  -file $homedir/mapper.py -mapper $homedir/mapper.py -file $homedir/reducer.py -reducer $homedir/reducer.py   -input /user/data/* -output /output/ 2> output.text

如果需要确认,路径/user/data/*包含包含文件的文件夹,/user/data/*将迭代所有子文件夹下的所有文件,对吗?

hdfs文本文件为每一行包含一个JSON字符串,因此映射器按如下方式读取文件:

for line in sys.stdin:
    try:
        object = json.loads(line)

但是HDFS的所有者将文件从文本更改为sequencefile。我发现map reduce程序输出了很多大小为零的文件,这可能意味着它没有成功地从HDFS读取文件。

我应该将什么更改为代码以便可以从sequencefile中读取?我还有一个配置单元外部表,可以根据mapreduce的输出执行聚合和排序,而且配置单元以前存储为TEXTFILE,我是否应该更改为存储为SEQUENCEFILE?

谢谢


Tags: 文件py程序hadoopmapreduceoutputdata
1条回答
网友
1楼 · 发布于 2024-04-27 21:18:10

看看this

在mapreduce作业之前在python文件下面运行
输入:序列文件
输出:您对mapreduce的输入

import sys

from hadoop.io import SequenceFile

if __name__ == '__main__':
    if len(sys.argv) < 3:
        print 'usage: SequenceFileReader <filename> <output>'
    else:
        reader = SequenceFile.Reader(sys.argv[1])

    key_class = reader.getKeyClass()
    value_class = reader.getValueClass()

    key = key_class()
    value = value_class()

    #reader.sync(4042)
    position = reader.getPosition()
    f = open(sys.argv[2],'w')
    while reader.next(key, value):
        f.write(value.toString()+'\n')
    reader.close()
    f.close()

现在不必更改原始的python文件。

相关问题 更多 >