使用pysp将文件夹数据从源位置复制到目标位置 - 问答 - Python中文网

使用pysp将文件夹数据从源位置复制到目标位置

2024-06-08 12:03:07 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我是pyspark新手，我的任务是使用pyspark将源文件夹数据复制到目标文件夹，在那里也会发生并行化。在python中，我可以使用

from shutil import copytree
copytree(source, destination)

这样，我就可以使用标准python通过文件夹结构反复复制整个数据。我也想这么做。在集群上使用pyspark的任务。我该怎么做呢，我正在使用YARN作为资源管理器。提前谢谢。在

Tags：数据 from import 文件夹 source 目标标准集群

2条回答

网友

1楼 · 编辑于 2024-06-08 12:03:07

spark允许您操作数据，而不是文件。因此，我可以为您提供两种解决方案：

1-您使用spark读取数据，并将其写入需要的位置：

spark.read.format(
    "my_format"
).load(
    "in_path"
).write.format(
    "my_format"
).save("out_path")

2-另一种解决方案是使用hadoop工具：

^{pr2}$

网友

2楼 · 编辑于 2024-06-08 12:03:07

可以作为数据帧加载和写入（例如parquet）：

df = spark.read.parquet(<your_input_path>)
df.write.parquet(<your_destination_path>)

其中'your'u input_path'可以是一个文件夹，它将复制其中的所有文件

相关问题更多 >

编程相关推荐

热门问题

热门文章