用于检测和删除正态分布数据集中的异常值的实用程序库

outlier_utils的Python项目详细描述


https://travis-ci.org/c-bata/outlier-utils.svg?branch=master

用于使用Smirnov-Grubbs测试从正态分布数据集中检测和删除异常值的实用程序库。

要求

概述

测试的双面和单面版本都受支持。前者允许从数据集的两端提取异常值,而后者只考虑最小/最大异常值运行测试时,将删除每个异常值,直到在数据集中找不到任何异常值为止测试的输出足够灵活,以匹配多个用例。默认情况下,将返回无离群值的数据,但测试也可以返回离群值本身或其在原始数据集中的索引。

示例

  • 用pandas系列输入进行双面grubbs测试
>>> from outliers import smirnov_grubbs as grubbs
>>> import pandas as pd
>>> data = pd.Series([1, 8, 9, 10, 9])
>>> grubbs.test(data, alpha=0.05)
1     8
2     9
3    10
4     9
dtype: int64
  • 带有numpy数组输入的双面grubbs测试
>>> import numpy as np
>>> data = np.array([1, 8, 9, 10, 9])
>>> grubbs.test(data, alpha=0.05)
array([ 8,  9, 10,  9])
  • 返回离群指数的单侧(最小)检验
>>> grubbs.min_test_indices([8, 9, 10, 1, 9], alpha=0.05)
[3]
  • 返回异常值的单侧(max)测试
>>> grubbs.max_test_outliers([8, 9, 10, 1, 9], alpha=0.05)
[]
>>> grubbs.max_test_outliers([8, 9, 10, 50, 9], alpha=0.05)
[50]

许可证

这个软件是根据麻省理工学院的许可证授权的。

变化

0.0.3(2016-04-25)

多亏了@lukius

  • 支持单侧(最小/最大)测试。
  • 测试输出现在更加灵活:用户可以运行测试,以找到离群值本身或异常值的索引,而不仅仅是离群数据。
  • 测试套件得到了增强。
  • 自述文件得到了扩展和改进。
  • 日文评论被翻译成英文,以便吸引更多的读者。

0.0.2(2015-12-02)

更新setup.py

0.0.1(2015-12-01)

发布到pypi

0.0.0(2015-07-28)

创建此项目。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java ActiveMQ 5.9.0、Glassfish 3.1.2和MDB用于长时间的消息处理   从main调用的对象数组的Java字符串表示形式   java如何在iText 7中为泰国字母上方的双标记设置GPO   编译如果Java6工件是用Java6、7或8编译的,这有关系吗?   image Java KeyListener未检测到键盘输入   java找不到符号(构造函数)   java如何使Kafka使用者从特定主题分区读取Spring Boot   Java readLine()返回null   从CSV文件计算值时出现java系统错误   java如何避免处理程序。被调用后延迟(可运行运行)?   Java Do和While验证   java如何访问父类型的ArrayList中的子方法?   java如何使用Deepfirstsearch算法获得最高级别的搜索   xml使用SAX解析器Java正确构建字符串   Android片段中的java Toast显示空指针expn   如何在java中将多个文件合并到另一个新文件中?   java在运行时在JVisualVM中更改应用程序的标题   javajavax。命名。NoInitialContextException:需要在环境或sys中指定类名