JavaHadoop(纱线):设置映射器输入分隔符?
我希望能够为我的键/值对设置不同的分隔符,我在MR作业的map函数中接收这些键/值对
例如,我的文本文件可能有:
John-23
Mary-45
Scott-13
在map函数中,我希望每个元素的键是John,值是23等等
然后,如果我使用
conf.set("mapreduce.textoutputformat.separator", "-");
减速机是否会在第一个“-”之前拾取键,然后再拾取值?或者我也需要对减速器进行更改吗
谢谢
# 1 楼答案
阅读
如果使用
org.apache.hadoop.mapreduce.lib.input.TextInputFormat
,只需在Mapper
中使用String#split
写作
如果以这种方式输出:
是的,
TextOutputFormat
负责以所需格式编写:我在Hadoop 2中遇到的唯一陷阱。x(纱线)and already answered here是指该属性已重命名为
mapreduce.output.textoutputformat.separator