用于检测和删除正态分布数据集中的异常值的实用程序库
outlier_utils的Python项目详细描述
用于使用Smirnov-Grubbs测试从正态分布数据集中检测和删除异常值的实用程序库。
概述
测试的双面和单面版本都受支持。前者允许从数据集的两端提取异常值,而后者只考虑最小/最大异常值运行测试时,将删除每个异常值,直到在数据集中找不到任何异常值为止测试的输出足够灵活,以匹配多个用例。默认情况下,将返回无离群值的数据,但测试也可以返回离群值本身或其在原始数据集中的索引。
示例
- 用pandas系列输入进行双面grubbs测试
>>> from outliers import smirnov_grubbs as grubbs >>> import pandas as pd >>> data = pd.Series([1, 8, 9, 10, 9]) >>> grubbs.test(data, alpha=0.05) 1 8 2 9 3 10 4 9 dtype: int64
- 带有numpy数组输入的双面grubbs测试
>>> import numpy as np >>> data = np.array([1, 8, 9, 10, 9]) >>> grubbs.test(data, alpha=0.05) array([ 8, 9, 10, 9])
- 返回离群指数的单侧(最小)检验
>>> grubbs.min_test_indices([8, 9, 10, 1, 9], alpha=0.05) [3]
- 返回异常值的单侧(max)测试
>>> grubbs.max_test_outliers([8, 9, 10, 1, 9], alpha=0.05) [] >>> grubbs.max_test_outliers([8, 9, 10, 50, 9], alpha=0.05) [50]
许可证
这个软件是根据麻省理工学院的许可证授权的。
变化
0.0.3(2016-04-25)
多亏了@lukius。
- 支持单侧(最小/最大)测试。
- 测试套件得到了增强。
- 自述文件得到了扩展和改进。
- 日文评论被翻译成英文,以便吸引更多的读者。
0.0.2(2015-12-02)
更新setup.py
0.0.1(2015-12-01)
发布到pypi
0.0.0(2015-07-28)
创建此项目。