合并多个具有非唯一索引的数据框

Question

我有一堆 pandas 时间序列。这里有一个例子来说明情况（真实数据每个序列大约有 100 万条记录）：

>>> for s in series:
    print s.head()
    print
2014-01-01 01:00:00   -0.546404
2014-01-01 01:00:00   -0.791217
2014-01-01 01:00:01    0.117944
2014-01-01 01:00:01   -1.033161
2014-01-01 01:00:02    0.013415
2014-01-01 01:00:02    0.368853
2014-01-01 01:00:02    0.380515
2014-01-01 01:00:02    0.976505
2014-01-01 01:00:02    0.881654
dtype: float64

2014-01-01 01:00:00   -0.111314
2014-01-01 01:00:01    0.792093
2014-01-01 01:00:01   -1.367650
2014-01-01 01:00:02   -0.469194
2014-01-01 01:00:02    0.569606
2014-01-01 01:00:02   -1.777805
dtype: float64

2014-01-01 01:00:00   -0.108123
2014-01-01 01:00:00   -1.518526
2014-01-01 01:00:00   -1.395465
2014-01-01 01:00:01    0.045677
2014-01-01 01:00:01    1.614789
2014-01-01 01:00:01    1.141460
2014-01-01 01:00:02    1.365290
dtype: float64

每个序列中的时间并不是唯一的。例如，最后一个序列在 2014-01-01 01:00:00 这个时间点有 3 个值。第二个序列在这个时间点只有一个值。另外，并不是所有的时间在所有序列中都需要出现。

我的目标是创建一个合并后的 DataFrame，其中的时间是所有单独时间序列中时间的并集。每个时间戳应该根据需要重复出现。所以，如果一个时间戳在上面的序列中出现了 (2, 0, 3, 4) 次，那么在最终的 DataFrame 中，这个时间戳应该重复 4 次（出现次数的最大值）。每一列的值应该是“向前填充”的。

例如，合并上述序列的结果应该是：

                             c0                c1              c2
2014-01-01 01:00:00   -0.546404         -0.111314       -0.108123
2014-01-01 01:00:00   -0.791217         -0.111314       -1.518526
2014-01-01 01:00:00   -0.791217         -0.111314       -1.395465
2014-01-01 01:00:01    0.117944          0.792093        0.045677
2014-01-01 01:00:01   -1.033161         -1.367650        1.614789
2014-01-01 01:00:01   -1.033161         -1.367650        1.141460
2014-01-01 01:00:02    0.013415         -0.469194        1.365290
2014-01-01 01:00:02    0.368853          0.569606        1.365290
2014-01-01 01:00:02    0.380515         -1.777805        1.365290
2014-01-01 01:00:02    0.976505         -1.777805        1.365290
2014-01-01 01:00:02    0.881654         -1.777805        1.365290

为了让你了解我真实数据的大小和“唯一性”：

>>> [len(s.index.unique()) for s in series]
[48617, 48635, 48720, 48620]
>>> len(times)
51043
>>> [len(s) for s in series]
[1143409, 1143758, 1233646, 1242864]

这是我尝试过的：

我可以创建一个所有唯一时间的并集：

uniques = [s.index.unique() for s in series]
times = uniques[0].union_many(uniques[1:])

现在我可以用 times 来索引每个序列：

series[0].loc[times]

但这样似乎会对 times 中的每个项目重复值，这并不是我想要的。

我不能用 times 来重新索引这些序列，因为每个序列的索引并不唯一。

我可以通过一个慢速的 Python 循环来实现，或者用 Cython，但有没有一种“仅用 pandas”的方法来实现我想做的事情呢？

我用以下代码创建了我的示例序列：

def make_series(n=3, rep=(0,5)):
    times = pandas.date_range('2014/01/01 01:00:00', periods=n, freq='S')
    reps = [random.randint(*rep) for _ in xrange(n)]
    dates = []
    values = numpy.random.randn(numpy.sum(reps))
    for date, rep in zip(times, reps):
        dates.extend([date]*rep)
    return pandas.Series(data=values, index=dates)

series = [make_series() for _ in xrange(3)]

数据处理时间戳 pandas 时间序列数据框合并数据整合非唯一索引向前填充

合并多个具有非唯一索引的数据框

2 个回答

撰写回答