使用pysp将文件夹数据从源位置复制到目标位置

2024-06-08 12:03:07 发布

您现在位置:Python中文网/ 问答频道 /正文

我是pyspark新手,我的任务是使用pyspark将源文件夹数据复制到目标文件夹,在那里也会发生并行化。 在python中,我可以使用

from shutil import copytree
copytree(source, destination)

这样,我就可以使用标准python通过文件夹结构反复复制整个数据。我也想这么做。在集群上使用pyspark的任务。我该怎么做呢,我正在使用YARN作为资源管理器。提前谢谢。在


Tags: 数据fromimport文件夹source目标标准集群
2条回答

spark允许您操作数据,而不是文件。 因此,我可以为您提供两种解决方案:

1-您使用spark读取数据,并将其写入需要的位置:

spark.read.format(
    "my_format"
).load(
    "in_path"
).write.format(
    "my_format"
).save("out_path")

2-另一种解决方案是使用hadoop工具:

^{pr2}$

可以作为数据帧加载和写入(例如parquet):

df = spark.read.parquet(<your_input_path>)
df.write.parquet(<your_destination_path>)

其中'your'u input_path'可以是一个文件夹,它将复制其中的所有文件

相关问题 更多 >