我在任何一个标准包中都找不到这个函数,所以我在下面写了一个。然而,在把它扔向芝士店之前,有人知道已经出版的版本吗?或者,请提出任何改进建议。谢谢。
def fivenum(v):
"""Returns Tukey's five number summary (minimum, lower-hinge, median, upper-hinge, maximum) for the input vector, a list or array of numbers based on 1.5 times the interquartile distance"""
import numpy as np
from scipy.stats import scoreatpercentile
try:
np.sum(v)
except TypeError:
print('Error: you must provide a list or array of only numbers')
q1 = scoreatpercentile(v,25)
q3 = scoreatpercentile(v,75)
iqd = q3-q1
md = np.median(v)
whisker = 1.5*iqd
return np.min(v), md-whisker, md, md+whisker, np.max(v),
^{}
Series
和DataFrame
有一个describe
方法,类似于R
的summary
:NAN
的正确处理。如果有人需要与数据中的
NaN
一起工作的版本,这里是我的修改。为了避免混淆,我不想改变原来的海报答案。我要摆脱这两件事:
您应该在模块级别导入。这意味着用户在导入模块时,而不是在调用函数时,会意识到缺少的依赖项。
有几个问题:
如果确实要对无效的数据(不是类型检查)引发某种异常,请传播现有异常,或将其包装为自己的异常类型。
相关问题 更多 >
编程相关推荐