如何（有效地、惯用地）根据条件从pandas系列中提取元素

网友

1楼 · 编辑于 2024-06-09 00:50:18

对于给定的解决方案，您可以使用jupytertimeitmagic命令进行一些评估，以简单地对其进行测试：

# %%
%timeit age[age>10].index.values
--> 235 µs ± 8.68 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


# %%
%timeit age.where(lambda x: x>10).dropna().index.values
--> 510 µs ± 14.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

# %%
%timeit [name for name, _age in age.items() if _age>10]
--> 12.5 µs ± 429 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

对于给定的解，最后一个是最快的，但是第一个是最简单的，仍然是完全有效的。你知道吗

另一个，注意效率的不同：

age.index[age.values > 10].tolist()
--> 16.5 µs ± 823 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

age.index[age > 10].tolist()
--> 157 µs ± 12.1 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

更新@Alexander的想法：

# %% 
from itertools import compress
%timeit list(compress(age.index, age > 10))
--> 119 µs ± 3.24 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

网友
2楼 · 编辑于 2024-06-09 00:50:18

pandas中的行切片接受callable。所以你可以
age.loc[lambda x: x > 10]
这个小例子看起来有点过分，但是：
如果序列名不是age，而是series_long_after_operation，这就变得更清楚了
它支持方法链接，如age.loc[lambda x: x > 10].loc[lambda x: x%2==0]
第二种方法实际上是长管道操作的一种方法，其中每个方法都返回不同的数据帧形状。你知道吗

网友
3楼 · 编辑于 2024-06-09 00:50:18

你可以压缩索引，但我不认为它比简单的布尔索引更简单，因为布尔索引非常简洁

from itertools import compress

>> list(compress(age.index, age > 10))
['mom', 'data']

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何（有效地、惯用地）根据条件从pandas系列中提取元素

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >