Python流媒体保持线数跟踪Hadoop - 问答 - Python中文网

Python流媒体保持线数跟踪Hadoop

2024-04-27 04:35:25 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试做一个简单的任务：我需要使用Hadoop流和Python将文本文件转换为大写。在

我想通过使用TextInputFormat来实现这一点，它将文件位置键和文本值传递给映射器。问题是Hadoop流automatically discards the file position keys，这是保持文档顺序所必需的。在

如何保留映射器输入的文件位置信息？或者，有没有更好的方法可以使用Hadoop流将文档转换为大写？在

谢谢。在

Tags：文件 the 文档文本 hadoop 信息顺序 position

1条回答

网友

1楼 · 发布于 2024-04-27 04:35:25

如果你的工作只是把一个文件大写，那么Hadoop不会真正给你任何东西，比如把文件流到一台机器上，执行大写，然后把内容写回HDFS。即使是一个巨大的文件（比如1TB），你仍然需要把所有的东西都放到一个reducer中，这样当它被写回HDFS时，它就会被存储在一个连续的文件中。在

在本例中，我将配置流作业为每个文件有一个映射器（将“分割最小值”和“最大值”设置为比文件本身更大的值），并运行仅映射的作业。在

相关问题更多 >

编程相关推荐

热门问题

热门文章