并行化函数pd.con公司 - 问答 - Python中文网

并行化函数pd.con公司

2024-04-25 18:53:59 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有一个巨大的数据帧列表，称为dfèlist（带有一些不同的和一些公共的列），我希望将其合并到一个大数据帧中。我尝试了以下方法：

all_dfs = pd.concat(df_list)

虽然这在一个核心上花费了太多的时间。48小时后我就把剧本删掉了。你会如何并行这个过程来使用我所有的核心或重写代码，使它更快

Tags：数据方法 df 核心列表过程时间 all

1条回答

网友

1楼 · 发布于 2024-04-25 18:53:59

pandas-不是关于parallel processing。你知道吗

最简单的方法是使用第三方工具来处理巨大的数据帧。您可以在不同的节点上运行数据集的计算/处理。你知道吗

您可以查看dask（类似于pandas接口）。
你可以看看pyspark。

您还可以使用swifter在多个核上运行处理。你知道吗

可能还有其他工具。。。换句话说，在您的例子中，最好在cluster中运行计算。你知道吗

希望这有帮助。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章