Python流媒体保持线数跟踪Hadoop

2024-04-27 04:35:25 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试做一个简单的任务:我需要使用Hadoop流和Python将文本文件转换为大写。在

我想通过使用TextInputFormat来实现这一点,它将文件位置键和文本值传递给映射器。问题是Hadoop流automatically discards the file position keys,这是保持文档顺序所必需的。在

如何保留映射器输入的文件位置信息?或者,有没有更好的方法可以使用Hadoop流将文档转换为大写?在

谢谢。在


Tags: 文件the文档文本hadoop信息顺序position
1条回答
网友
1楼 · 发布于 2024-04-27 04:35:25

如果你的工作只是把一个文件大写,那么Hadoop不会真正给你任何东西,比如把文件流到一台机器上,执行大写,然后把内容写回HDFS。即使是一个巨大的文件(比如1TB),你仍然需要把所有的东西都放到一个reducer中,这样当它被写回HDFS时,它就会被存储在一个连续的文件中。在

在本例中,我将配置流作业为每个文件有一个映射器(将“分割最小值”和“最大值”设置为比文件本身更大的值),并运行仅映射的作业。在

相关问题 更多 >