我有一个pandas数据框(不是很大,可以很容易地存储在内存中),我想将它转换为拼花地板并将其加载到Hadoop中,而不必首先将其存储在本地
目前,我正在转换拼花格式的数据帧并将其保存在本地。然后我从本地文件中读取并上传到Hadoop
我不知道如何将数据框转换为拼花地板,我只知道这段代码,它获取数据框并将其保存为本地拼花地板格式:
df = pandas.dataFrame()
table = pyarrow.Table.from_pandas(df)
parquet.write_table(table, "df.parquet")
我只想把df上传到拼花地板格式的Hadoop。有办法吗
目前没有回答
相关问题 更多 >
编程相关推荐