Pandas数据fram中异常值的检测与排除

网友

1楼 · 编辑于 2024-05-14 05:38:25

对于每个dataframe列，您可以使用：

q = df["col"].quantile(0.99)

然后过滤：

df[df["col"] < q]

如果需要删除上下异常值，请将条件与and语句结合起来：

q_low = df["col"].quantile(0.01)
q_hi  = df["col"].quantile(0.99)

df_filtered = df[(df["col"] < q_hi) & (df["col"] > q_low)]

网友

2楼 · 编辑于 2024-05-14 05:38:25

如果数据帧中有多个列，并且希望删除至少一列中有异常值的所有行，则以下表达式将一次性完成此操作。

df = pd.DataFrame(np.random.randn(100, 3))

from scipy import stats
df[(np.abs(stats.zscore(df)) < 3).all(axis=1)]

说明：

对于每一列，首先计算列，相对于列的平均值和标准偏差。
那么is取Z分数的绝对值，因为方向不是重要的是，只有低于门槛。
所有（轴=1）确保对于每一行，所有列都满足约束。
最后，使用此条件的结果来索引数据帧。

网友

3楼 · 编辑于 2024-05-14 05:38:25

像在numpy.array中那样使用boolean索引

df = pd.DataFrame({'Data':np.random.normal(size=200)})
# example dataset of normally distributed data. 

df[np.abs(df.Data-df.Data.mean()) <= (3*df.Data.std())]
# keep only the ones that are within +3 to -3 standard deviations in the column 'Data'.

df[~(np.abs(df.Data-df.Data.mean()) > (3*df.Data.std()))]
# or if you prefer the other way around

对于一个系列，它是相似的：

S = pd.Series(np.random.normal(size=200))
S[~((S-S.mean()).abs() > 3*S.std())]

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pandas数据fram中异常值的检测与排除

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >