filemerge:合并小hdfs文件的工具
filemerge的Python项目详细描述
文件合并
filemerge是一个实用程序,用于将大量小hdfs文件合并到 较小数量的大文件。filemerge用于hadoop操作 工程师和Map Reduce应用程序开发人员。
代码的结构很简单。实际的合并是由pig执行的 使用用户提供的参数在运行时创建的脚本。这些参数 控制要合并的文件集。该实用程序由单个文件组成, filemerge.py ,它接受输入参数并调用创建的pig 脚本。因此, pig 命令必须可用,并位于 运行时用户。 用户指定输入路径、输出路径、主题和 要合并为年/月/日格式或特定hdfs目录的文件 或文件中hdfs目录的列表。