划分一个大的数据集,将较小的df合并成较大的df,并使用Dask来帮助加快速度?

2024-04-25 12:30:33 发布

您现在位置:Python中文网/ 问答频道 /正文

我对处理大数据还比较陌生,我处理的数据集相当大,比长的数据集要宽(很多列,没有那么多行),我希望对整个数据帧进行分析。你知道吗

简而言之,这些列是相关的变量,我希望删除任何相关的变量。你知道吗

深入,

理想情况下,我会创建一个函数,将数据集作为一个数据帧,将数据帧分块成更小的数据帧(比如,数据帧1、2、3、4、5和6),并执行一个分析,以查看这些列之间的相关性。你知道吗

意识到你不能孤立地做这件事,我希望对这6个块运行分析,以一种连续的方式合并(比如说,数据帧1\u 2被合并,然后3\u 4,然后5\u 6),再次运行分析,再次合并(现在,1\u 2\u 3然后4\u 5\u 6),并重复这个过程,直到有一个完整的数据集完全不相关。你知道吗

2个问题:

  1. 将这些块合并到更大的 大块?(因为尝试一次制作多个迷你块)
  2. 除了努力加快分析速度,我还能怎么做呢 利用Dask的核心功能进行分块?你知道吗

Tags: 数据函数利用过程方式情况速度分块