用hadoop-python处理多个文件 - 问答 - Python中文网

用hadoop-python处理多个文件

2024-04-18 02:36:30 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有一个场景，文本分隔的文件每30分钟从不同的服务器（大约10个）到达hadoop系统。你知道吗

每个文件有大约250万条记录，可能不会在同一时间到达，我正在寻找一种方法，这些文件可以每30分钟处理一次。你知道吗

我的问题是：

如何处理不同时间到达的文件？你知道吗
我想把数据汇总到10个文件中。这么大的文件应该合并还是分开处理？你知道吗

我希望这个解决方案可以用python实现，但是使用hadoop中的任何工具/技术的解决方案都会受到赞赏。你知道吗

Tags：文件工具数据方法文本服务器 hadoop 系统

1条回答

网友

1楼 · 发布于 2024-04-18 02:36:30

How to handle files arriving at different times?

除非你的数据对时间敏感，否则这无关紧要。如果是这样，那么原始数据应该包括写入记录的时间戳。你知道吗

Should such large files be combined or processed separately?

大的，独立的文件是最好的。注意HDFS块的大小。此大小取决于您的安装。你知道吗

I want this solution to be implemented in python

欢迎您使用Spark Streaming来监视文件目录，或者使用Oozie+Spark来安排常规批处理，但其他工具可能更简单。你知道吗

有些你可以研究

阿帕奇尼菲
流集数据采集器
阿帕奇水槽

Flume将要求您在这10个外部服务器上安装代理。你知道吗

列出的每个服务都可以近实时地读取数据，因此不需要显式地进行30分钟的批处理。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章