有没有比groupby更快的方法来遍历组？

id temp1 temp2 9 10.0 True False 10 10.0 True False 11 10.0 False True 12 10.0 False True 17 15.0 True False 18 15.0 True False 19 15.0 True False 20 15.0 True False 21 15.0 False False 33 27.0 True False 34 27.0 True False 35 27.0 False True 36 27.0 False False 40 31.0 True False 41 31.0 False True . . .

3条回答

网友

1楼 · 编辑于 2024-05-15 01:31:59

问题不在于groupby，而在于lambda。Lambda操作没有矢量化*。使用agg可以更快地得到相同的结果。我会做：

 groupdf = coinc.groupby('id').agg(any)
 # Selects instance where both contain at least one true statement
 mask = maskdf[['temp1','temp2']].all(axis=1) 
 lanif = groupdf[mask].drop(['temp1','temp2'],axis = 1 )

*这是一个非常微妙的问题，我认为过于简单化了，抱歉。你知道吗

网友

2楼 · 编辑于 2024-05-15 01:31:59

i, u = pd.factorize(coinc.id)
t = np.zeros((len(u), 2), bool)
c = np.column_stack([coinc.temp1.to_numpy(), coinc.temp2.to_numpy()])

np.logical_or.at(t, i, c)

final = coinc.loc[t.all(1)[i], ['id']]

final

      id
9   10.0
10  10.0
11  10.0
12  10.0
33  27.0
34  27.0
35  27.0
36  27.0
40  31.0
41  31.0

网友

3楼 · 编辑于 2024-05-15 01:31:59

在这里使用filter和lambda函数会大大降低速度。你可以通过移除它来加快速度。你知道吗

u = coinc.groupby('id')
m = u.temp1.any() & u.temp2.any()
res = df.loc[coinc.id.isin(m[m].index), ['id']]

在更大的框架上比较这个方法。你知道吗

a = np.random.randint(1, 1000, 100_000)
b = np.random.randint(0, 2, 100_000, dtype=bool)
c = ~b

coinc = pd.DataFrame({'id': a, 'temp1': b, 'temp2': c})

In [295]: %%timeit
     ...: u = coinc.groupby('id')
     ...: m = u.temp1.any() & u.temp2.any()
     ...: res = coinc.loc[coinc.id.isin(m[m].index), ['id']]
     ...:
13.5 ms ± 476 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

In [296]: %%timeit
     ...: grouped = coinc.groupby('id')
     ...: final = grouped.filter(lambda x: ( x['temp2'].any() and x['temp1'].any()))
     ...: lanif = final.drop(['temp1','temp2'],axis = 1 )
     ...:
527 ms ± 7.91 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

np.array_equal(res.values, lanif.values)

True

相关问题更多 >

编程相关推荐

热门问题

热门文章