如何有效地合并这两个数据集？

def emit_datum(datapoints): for datum in datapoints: yield datum def merge_data(data_set1, data_set2): assert len(data_set1) == len(data_set2) data_length = len(data_set1) data_gen1 = emit_datum(data_set1) data_gen2 = emit_datum(data_set2) merged_data = [] for _ in range(data_length): datum1 = data_gen1.next() datum2 = data_gen2.next() if datum1[0] is None or datum2[0] is None: merged_data.append([0.0, datum1[1]]) continue count = datum1[0] + datum2[0] merged_data.append([count, datum1[1]]) return merged_data

3条回答

网友

1楼 · 编辑于 2024-05-17 00:03:06

基于标识符的“binning”数据如何，即收集与一个标识符（例如1403603400）对应的所有值，然后将其相加。字典非常适合于收集与标识符（键）对应的所有值，而类型为list的defaultdict使这一点特别简单：

>>> data = [[1.0, 1403603100],  [1.0, 1403603100],
...  [0.0, 1403603400],  [0.0, 1403603400],
...  [2.0, 1403603700],  [1.0, 1403603700],
...  [0.0, 1403604000],  [None, 1403604000],
...  [None, 1403604300],  [5.0, 1403604300]]

>>> from collections import defaultdict
>>> d = defaultdict(list)
>>> for value, identifier in data:
...     d[identifier].append(value)
...

现在我们对数据进行了排序，并可以有条件地对其进行求和：

^{pr2}$

最后一部分，为了获得您想要的列表：

>>> [[i, sum(v)] if None not in v else [i, .0] for i, v in d.iteritems()]
[[1403603400, 0.0], [1403603700, 3.0], [1403603100, 2.0], [1403604300, 0.0], [1403604000, 0.0]]

这种方法要求首先混合数据集，就像在示例输入的第一个版本中一样。在

网友

2楼 · 编辑于 2024-05-17 00:03:06

使用numpy数组，您不需要执行任何操作循环。这个如果要处理更大的数据集，请使代码更快。在

import numpy as np

In [68]: a = np.asarray(a)


In [69]: b = np.asarray(b)

In [71]: a_none_idx = np.equal(a,None)

In [72]: b_none_idx = np.equal(b,None)

In [73]: a[a_none_idx]=0

In [74]: b[b_none_idx]=0

In [76]: c = np.zeros(a.shape)

In [77]: c[:,0]= a[:,0] + b[:,0]

In [78]: c
Out[78]: 
array([[ 2.,  0.],
       [ 0.,  0.],
       [ 3.,  0.],
       [ 0.,  0.],
       [ 5.,  0.]])

In [79]: c[a_none_idx]=0

In [80]: c[b_none_idx]=0

In [81]: c[:,1] = a[:,1]

In [82]: c
Out[82]: 
array([[  2.00000000e+00,   1.40360310e+09],
       [  0.00000000e+00,   1.40360340e+09],
       [  3.00000000e+00,   1.40360370e+09],
       [  0.00000000e+00,   1.40360400e+09],
       [  0.00000000e+00,   1.40360430e+09]]

网友

3楼 · 编辑于 2024-05-17 00:03:06

如果要使两个值都等于0.0（如果其中一个都不等于0.0），则只需要一个简单的循环。在

 l1 = [1.0, 1403603100],
 [0.0, 1403603400],
 [2.0, 1403603700],
 [0.0, 1403604000],
 [None, 1403604300]]

l2 = [[1.0, 1403603100],
[0.0, 1403603400],
[1.0, 1403603700],
[None, 1403604000],
[5.0, 1403604300]]

final = []
assert len(l1)== len(l2)
for x, y in zip(l1, l2):
    if x[0] is  None or y[0] is  None:
        y[0] = 0.0
        final.append(y)
    else:
        final.append([x[0] + y[0], x[-1]])
print final

[[2.0, 1403603100], [0.0, 1403603400], [3.0, 1403603700], [0.0, 1403604000], [0.0, 1403604300]]


In [51]: %timeit merge_data(l1,l2)
100000 loops, best of 3: 5.76 µs per loop


 In [52]: %%timeit                 
   ....: final = []
   ....: assert len(l1)==len(l2)
   ....: for x, y in zip(l1, l2):
   ....:     if x[0] is  None or y[0] is None:
   ....:         y[0] = 0.0
   ....:         final.append(y)
   ....:     else:
   ....:         final.append([x[0] + y[0], x[-1]])
   ....: 
100000 loops, best of 3: 2.64 µs per loop

相关问题更多 >

编程相关推荐

热门问题

热门文章