clean_assist是一个简单的库,旨在帮助数据科学家观察数据帧的描述性摘要
cleanassist的Python项目详细描述
清洁辅助装置
Clean Assist是一个简单的库,旨在帮助数据科学家观察他们想要清理的任何数据帧的摘要。
此库还显示图表,以查看变量的正常近似值。
Clean Assist由2个函数组成:
- 在
干净_辅助表(df,n_行,n_round)
显示相关功能以帮助您进行数据清理和分析。参数
在
df:您要分析的数据帧
n_行:要显示的变量数
n_round:小数到四舍五入的计算数 - 在
***干净_协助正常(数据框、列表变量、打印图像、大小、字体大小)***
显示直方图,将变量与正态分布进行比较。参数
在
df:您要分析的数据帧
list_var:以列表格式分析的列的名称
打印:输入“y”打印图像或输入“n”不打印
size_x:图像输出的宽度
大小:图像输出的高度
字体大小:标题和标题的字体大小
要导入库:复制并粘贴绿色代码到python代码:
- Note: Delete the plus(+) signs after pasting code
^{pr2}$
<;html>;
<;车身>;
图书馆使用和解释示例:
1下表是函数的输出示例:clean_辅助表(df,n_行,n_round)VARIABLES | NULLS | COUNT | TYPES | MEAN | MEDIAN | UNIQUES | SAMPLE_________________________________ | Outliers | pval(Norm) |
---|---|---|---|---|---|---|---|---|---|
AVG_CLICKS_PER_VISIT | 0 | 1946 | int64 | 13.5 | 13.0 | 15 | [11, 13, 12, 13, 13, 17, 10, 13, 12, 12] | [6,0] | 0.03 |
MEDIAN_MEAL_RATING | 47 | 1899 | int64 | 2.8 | 3.0 | 5 | [3, 3, 3, 3, 3, 2, 4, 3, 3, 3] | [0,13] | 3e-06 |
REVENUE | 0 | 1946 | float64 | 2107.3 | 1740.0 | 859 | [1880, 1495, 2572.5, 1647, 1923, 1250] | [0,82] | 1e-21 |
TOTAL_PHOTOS_VIEWED | 0 | 1946 | int64 | 106.4 | 0.0 | 371 | [0, 90, 0, 0, 253, 0, 705, 0, 0, 0] | [0,120] | 5e-90 |
CROSS_SELL_SUCCESS | 0 | 1946 | int64 | 0.7 | 1.0 | 2 | [1, 1, 1, 0, 1, 1, 0, 1, 1, 1] | 1e-159 |
调查结果示例:
- 每次访问的平均点击次数有相似的平均值和平均值,接近正态分布,有6个较低的异常值。在
- 中位数的“吃饭”评分有47个零分,需要插补。在
- 收入是唯一的浮动变量,其余都是整数。在
- 浏览的照片总数的中位数为0和120个较高的异常值。这意味着大多数人不看照片。在
- 交叉销售成功有两个独特的价值观。在名为sample的列中,您只能看到1和0。这是一个二进制或布尔列。在
2接下来,函数的一个示例输出:clean_协助正常(数据框、列表变量、打印图像、大小、字体大小)
直方图的解释:
- 中位数的_餐_评级有整数个值,它模拟一个正态分布。在
- 每次就诊的平均点击次数是正态分布的最接近变量,p值为0.03。在
- 收入右倾,有82个较高的异常值。在
- 浏览的照片总数有太多零值。它也是右偏的,远远不是正态分布。在
- 项目
标签: