2024-06-08 12:03:07 发布
网友
我是pyspark新手,我的任务是使用pyspark将源文件夹数据复制到目标文件夹,在那里也会发生并行化。 在python中,我可以使用
from shutil import copytree copytree(source, destination)
这样,我就可以使用标准python通过文件夹结构反复复制整个数据。我也想这么做。在集群上使用pyspark的任务。我该怎么做呢,我正在使用YARN作为资源管理器。提前谢谢。在
spark允许您操作数据,而不是文件。 因此,我可以为您提供两种解决方案:
1-您使用spark读取数据,并将其写入需要的位置:
spark.read.format( "my_format" ).load( "in_path" ).write.format( "my_format" ).save("out_path")
2-另一种解决方案是使用hadoop工具:
可以作为数据帧加载和写入(例如parquet):
df = spark.read.parquet(<your_input_path>) df.write.parquet(<your_destination_path>)
其中'your'u input_path'可以是一个文件夹,它将复制其中的所有文件
spark允许您操作数据,而不是文件。 因此,我可以为您提供两种解决方案:
1-您使用spark读取数据,并将其写入需要的位置:
2-另一种解决方案是使用hadoop工具:
^{pr2}$可以作为数据帧加载和写入(例如parquet):
其中'your'u input_path'可以是一个文件夹,它将复制其中的所有文件
相关问题 更多 >
编程相关推荐