从数据集中删除异常值的Python pip包
outlier-removal-yash-saxena的Python项目详细描述
利用四分位间距去除离群值行
Project 2:UCS633数据分析和可视化
提交人:Yash saxena 101703627
pypi:https://pypi.org/project/outlier-removal-yash-saxena git:https://github.com/yashsaxena972/outlier-removal
IQR四分位间距说明
任何数据都可以用它的五位数摘要来描述。这五个数字包括(按升序排列):
数据集的最小值或最小值。 第一个四分位数Q1,表示所有数据列表的四分之一。 数据集的中值,表示整个数据列表的中点。 第三个四分位数Q3,表示所有数据列表中四分之三的数据。 数据集的最大值或最高值。在
可接受数据的计算
IQR = Q3-Q1
lower=Q1-(1.5*IQR)
upper=Q3+(1.5*IQR)
在上下之间的数据值是可以接受的,其余的是离群值,因此被删除。在
安装
使用包管理器pip安装删除系统。在
^{pr2}$如何使用此软件包:
异常值移除yash saxena可以按如下方式运行:
在命令提示符
>> outliers <dataset.csv>
示例数据集
Marks | Students |
---|---|
3 | S1 |
57 | S2 |
65 | S3 |
98 | S4 |
43 | S5 |
44 | S6 |
54 | S7 |
99 | S8 |
1 | S9 |
删除后输出数据集
^{tb2}$可以清楚地看到,行S1、S8和S9已从数据集中删除。在
许可证
- 项目
标签: