如何分割pandas数据框?

1 投票
1 回答
892 浏览
提问于 2025-04-18 11:23

我有一个非常大的时间序列数据,存储在一个叫做pandas的工具里的HDF5格式中。我想对这个时间序列里的每个函数做一些变换,然后画图。因为图的数量太多了,而且绘图的时间也很长,所以我用了fork()numpy.array_split()这两个方法,把索引分开,来同时绘制多个图。

这样做的结果是,每个进程都得有整个时间序列的副本。由于我能同时运行的进程数量是受总内存限制的,所以我希望每个进程只存储自己那一部分的数据。

我该如何把pandas的数据框分开呢?

1 个回答

4

np.array_split 在这个情况下效果很好。

 [40]: df = DataFrame(np.random.randn(5,10))

In [41]: df
Out[41]: 
          0         1         2         3         4         5         6         7         8         9
0 -1.998163 -1.973708  0.461369 -0.575661  0.862534 -1.326168  1.164199 -1.004121  1.236323 -0.339586
1 -0.591188 -0.162782  0.043923  0.101241  0.120330 -1.201497 -0.108959 -0.033221  0.145400 -0.324831
2  0.114842  0.200597  2.792904  0.769636 -0.698700 -0.544161  0.838117 -0.013527 -0.623317 -1.461193
3  1.309628 -0.444961  0.323008 -1.409978 -0.697961  0.132321 -2.851494  1.233421 -1.540319  1.107052
4  0.436368  0.627954 -0.942830  0.448113 -0.030464  0.764961 -0.241905 -0.620992  1.238171 -0.127617

这里你得到的是一个包含3个元素的列表,显示得很漂亮。

In [43]: for dfs in np.array_split(df,3,axis=1):
   ....:     print dfs, "\n"
   ....:     
          0         1         2         3
0 -1.998163 -1.973708  0.461369 -0.575661
1 -0.591188 -0.162782  0.043923  0.101241
2  0.114842  0.200597  2.792904  0.769636
3  1.309628 -0.444961  0.323008 -1.409978
4  0.436368  0.627954 -0.942830  0.448113 

          4         5         6
0  0.862534 -1.326168  1.164199
1  0.120330 -1.201497 -0.108959
2 -0.698700 -0.544161  0.838117
3 -0.697961  0.132321 -2.851494
4 -0.030464  0.764961 -0.241905 

          7         8         9
0 -1.004121  1.236323 -0.339586
1 -0.033221  0.145400 -0.324831
2 -0.013527 -0.623317 -1.461193
3  1.233421 -1.540319  1.107052

撰写回答