使用Python读取Hadoop中的tabseparated文件

1条回答

网友

1楼 · 发布于 2024-04-20 11:16:31

我将简化您的数据，以达到Hadoop处理的核心。假设您有以下列式数据：

分散在ndata*.csv文件中，您需要得到每列的总和。当然，在现实世界中，您将拥有更多的行和/或列。我们将使用Pydoop Script来解决问题（是的，我是开发团队的成员）。将以下代码保存到名为colsum.py的文件中：

^{pr2}$

将数据保存到HDFS并运行应用程序：

$ hadoop fs -mkdir input
$ hadoop fs -put data*.csv input
$ pydoop script colsum.py input output

您的输出应该如下所示：

$ hadoop fs -cat output/part*
2   42
0   15
1   28

第一列存储原始列索引，而第二列存储和。您可以使用它来轻松地重建最终的和向量，或者让它保持原样以便进一步处理。在