并行化函数pd.con公司

2024-04-25 18:53:59 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个巨大的数据帧列表,称为dfèlist(带有一些不同的和一些公共的列),我希望将其合并到一个大数据帧中。我尝试了以下方法:

all_dfs = pd.concat(df_list)

虽然这在一个核心上花费了太多的时间。48小时后我就把剧本删掉了。你会如何并行这个过程来使用我所有的核心或重写代码,使它更快


Tags: 数据方法df核心列表过程时间all
1条回答
网友
1楼 · 发布于 2024-04-25 18:53:59

pandas-不是关于parallel processing。你知道吗

最简单的方法是使用第三方工具来处理巨大的数据帧。您可以在不同的节点上运行数据集的计算/处理。你知道吗

  • 您可以查看dask(类似于pandas接口)。

  • 你可以看看pyspark

您还可以使用swifter在多个核上运行处理。你知道吗

可能还有其他工具。。。换句话说,在您的例子中,最好在cluster中运行计算。你知道吗

希望这有帮助。你知道吗

相关问题 更多 >