2024-04-25 18:53:59 发布
网友
我有一个巨大的数据帧列表,称为dfèlist(带有一些不同的和一些公共的列),我希望将其合并到一个大数据帧中。我尝试了以下方法:
all_dfs = pd.concat(df_list)
虽然这在一个核心上花费了太多的时间。48小时后我就把剧本删掉了。你会如何并行这个过程来使用我所有的核心或重写代码,使它更快
pandas-不是关于parallel processing。你知道吗
pandas
parallel processing
最简单的方法是使用第三方工具来处理巨大的数据帧。您可以在不同的节点上运行数据集的计算/处理。你知道吗
您可以查看dask(类似于pandas接口)。
你可以看看pyspark。
您还可以使用swifter在多个核上运行处理。你知道吗
可能还有其他工具。。。换句话说,在您的例子中,最好在cluster中运行计算。你知道吗
cluster
希望这有帮助。你知道吗
pandas
-不是关于parallel processing
。你知道吗最简单的方法是使用第三方工具来处理巨大的数据帧。您可以在不同的节点上运行数据集的计算/处理。你知道吗
您可以查看dask(类似于
pandas
接口)。你可以看看pyspark。
您还可以使用swifter在多个核上运行处理。你知道吗
可能还有其他工具。。。换句话说,在您的例子中,最好在
cluster
中运行计算。你知道吗希望这有帮助。你知道吗
相关问题 更多 >
编程相关推荐