我将一些数据装箱,然后按仓位分组,用.count
计算每个仓位中的条目数,并查询每个仓位的样本数
import pandas as pd
import numpy as np
A = np.random.random(10000)
bins = np.arange(0, max(A), 0.03)
data_bins = pd.cut(A, bins = bins, precision = 100)
df = pd.DataFrame({"A": A,
"bin": data_bins})\
.sort_values(by = ["bin"])\
.reset_index(drop = True)\
.dropna()
print(df.head())
# For example, only take bins with more than 310 entries in each
valid_bins = df.groupby("bin")[["A"]].count().query("A > 310")
print(valid_bins)
所以现在我知道了在我的大数据集中使用valid_bins
查找哪些垃圾箱。现在,如何在原始df
中仅定位这些箱子
我认为您需要^{} 用于} 进行过滤:
Series
,其大小与原始DataFrame
相同,因此可以通过^{或者将slowier溶液与filtration一起使用:
相关问题 更多 >
编程相关推荐