2024-04-23 21:33:50 发布
网友
我在HDFS中有多个zip文件,其中包含两种类型的文件(A.csv&;B.csv)
A.csv
B.csv
HDFS位置
/data/jan.zip --> contains A.csv & B.csv /data/feb.zip --> contains A.csv & B.csv
我想将文件解压缩到HDFS位置,如下所示
我正在寻找一些命令像下面的任何技术(火花,猪,蜂巢,…)
hadoop fs -unzip hdfs://..../abc.zip
我用python3在远程hdfs的本地pc上制作了它。如果有帮助的话。。。太棒了! 您可以根据您的pyspark修改以下脚本。在
您需要以下库:
from zipfile import ZipFile from io import BytesIO from hdfs import Client, HdfsError
前两个是本机的,应该安装“hdfs”。 我用了https://pypi.org/project/hdfs/。你可以用其他任何你喜欢的。在
下面是脚本:
我知道这是一个很好的解决办法,但它是有效的。 希望这对某人有帮助。在
pipes
例如: hadoop fs -cat abc.zip | unzip -d xxxx | hadoop fs -put src dest
hadoop fs -cat abc.zip | unzip -d xxxx | hadoop fs -put src dest
我用python3在远程hdfs的本地pc上制作了它。如果有帮助的话。。。太棒了! 您可以根据您的pyspark修改以下脚本。在
您需要以下库:
前两个是本机的,应该安装“hdfs”。 我用了https://pypi.org/project/hdfs/。你可以用其他任何你喜欢的。在
下面是脚本:
^{pr2}$我知道这是一个很好的解决办法,但它是有效的。 希望这对某人有帮助。在
pipes
。 在您的例子中,您需要遍历hdfs中的data文件夹,对于每个zip,您需要执行下面的示例命令例如:
hadoop fs -cat abc.zip | unzip -d xxxx | hadoop fs -put src dest
相关问题 更多 >
编程相关推荐