将pandas数据帧转换为内存中的拼花地板,并将其加载到Python中的Hadoop中

2024-05-15 12:16:14 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个pandas数据框(不是很大,可以很容易地存储在内存中),我想将它转换为拼花地板并将其加载到Hadoop中,而不必首先将其存储在本地

目前,我正在转换拼花格式的数据帧并将其保存在本地。然后我从本地文件中读取并上传到Hadoop

我不知道如何将数据框转换为拼花地板,我只知道这段代码,它获取数据框并将其保存为本地拼花地板格式:

df = pandas.dataFrame()
table = pyarrow.Table.from_pandas(df)
parquet.write_table(table, "df.parquet") 

我只想把df上传到拼花地板格式的Hadoop。有办法吗


Tags: 文件数据内存代码hadoopdataframepandasdf