如果数据集中存在大量异常值，该怎么办

def check_outliers(col) : outliers = [] Q1 = col.quantile(.25) Q3 = col.quantile(.75) IQR = Q3 - Q1 lowerLimit = Q1 - 1.5*IQR higherLimit = Q3 - 1.5*IQR for elt in col : if elt < lowerLimit or elt > higherLimit : outliers.append(elt) return np.array(outliers), lowerLimit, higherLimit for col in train.columns : arr,lowerLimit,higherLimit = check_outliers(train[col]) print(col, len(arr)) train[col] = np.where(train[col]>higherLimit,higherLimit,train[col]) train[col] = np.where(train[col] <lowerLimit,lowerLimit,train[col])

1条回答

网友

1楼 · 发布于 2024-06-12 04:11:56

对于你的higherlimit，你已经写了Q3 - 1.5*IQR，但是它应该在这里。目前，您的上限输出值将远低于其应有值，因此返回95%的异常值（这在使用LQ/UQ和IQR时是不可能的）

def check_outliers(col) :
outliers = []
Q1 = col.quantile(.25)
Q3 = col.quantile(.75)
IQR = Q3 - Q1
lowerLimit = Q1 - 1.5*IQR
higherLimit = Q3 + 1.5*IQR

for elt in col :
    if elt < lowerLimit or elt > higherLimit :
        outliers.append(elt)
        
return np.array(outliers), lowerLimit, higherLimit

相关问题更多 >

编程相关推荐

热门问题

热门文章