从pandas dataframe python中删除异常值

2024-05-23 14:07:35 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一个使用pandas创建数据帧的代码

import pandas as pd
import numpy as np

x = (g[0].time[:111673])
y = (g[0].data.f[:111673])
df = pd.DataFrame({'Time': x, 'Data': y})
#df

打印出来：

^{pr2}$

这很好，但我知道在这个数据中有一些异常值，我想删除，所以我在下面创建了这个数据框来指出它们：

newdf = df.copy()
Data = newdf.groupby('Data')
newdf[np.abs(newdf.Data-newdf.Data.mean())<=(3*newdf.Data.std())]
newdf['Outlier'] = Data.transform( lambda x: abs(x-x.mean()) > 1.96*x.std() )
#newdf

打印出来：

             Data          Time  Outlier
0        -0.704239      7.304021    False
1        -0.704239      7.352021    False
2        -0.704239      7.400021    False
3        -0.704239      7.448021    False
4        -0.825279      7.496021    False

在我的数据示例中，您看不到它，但可能有300个离群值，我想删除它们，而不扰乱原始数据帧，然后将它们绘制在一起作为压缩。我的问题是这样的：那么，与其打印出false/true，我怎样才能消除true的异常值呢？所以我最终可以把它们画在同一张图上进行比较。在

我已经试过了：

newdf[np.abs(newdf.Data-newdf.Data.mean())<=(1.96*newdf.Data.std())]

newdf = df.copy()
def replace_outliers_with_nan(df, stdvs):
    newdf=pd.DataFrame()
    for i, col in enumerate(df.sites.unique()):
        df = pd.DataFrame(df[df.sites==col])
        idx = [np.abs(df-df.mean())<=(stdvs*df.std())] 
        df[idx==False]=np.nan  
        newdf[col] = df
    return newdf

这两种方法都不起作用，它们返回的数据点数量与我的原始数据帧相同，但是我知道，如果去掉异常值，点的数量将比原始数据帧少。在

Tags：数据 import false dataframe pandas df data 原始数据

1条回答

网友

1楼 · 发布于 2024-05-23 14:07:35

似乎您需要使用^{}和{}作为反转条件，因为只需要过滤异常值行（并删除离群值）：

df1 = df[~df.groupby('Data').transform( lambda x: abs(x-x.mean()) > 1.96*x.std()).values]
print (df1)
       Data      Time
0 -0.704239  7.304021
1 -0.704239  7.352021
2 -0.704239  7.400021
3 -0.704239  7.448021
4 -0.825279  7.496021

从pandas dataframe python中删除异常值

相关问题更多 >

编程相关推荐

热门问题

热门文章

从pandas dataframe python中删除异常值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >