Mapreduce回车

time yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-streaming.jar \ -D mapred.compress.map.output=true \ -D mapred.reduce.tasks=0 \ -D mapred.job.name=cc \ -D fs.s3a.aws.credentials.provider=org.apache.hadoop.fs.s3a.AnonymousAWSCredentialsProvider \ -files mapper.py \ -archives wasbs://cluster@ccscsg.blob.core.windows.net/user/ubuntu/virtualenv/.venv2.zip#venv \ -mapper mapper.py \ -input s3a://commoncrawl/crawl-data/CC-MAIN-2018-39/segments/1537267155413.17/warc/CC-MAIN-20180918130631-20180918150631-00000.warc.gz \ -output /output_warc

1条回答

网友

1楼 · 发布于 2024-05-15 09:51:55

您可以设置-D mapreduce.output.textoutputformat.separator=$'\r'。但是这会给每一行添加一个\r，即使输入中没有一行。你知道吗

MapReduce作业期望映射器输出一对，用于分隔输出中的键和值的分隔符由(mapreduce.output.textoutputformat文件.separator`（默认为制表符）。你知道吗

顺便说一句，WARC文件不是文本文件-有二进制负载（pdf，图像）和HTML没有固定的内容编码。您可以考虑使用WARC解析库（例如warcio），或者简单地使用cc-mrjob或cc-pyspark来进行处理。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章