具有数据分析功能的包
analytics-utils的Python项目详细描述
分析-实用程序
包包含数据分析功能
安装
pip install analytics-utils
用法
描述数据
此函数用于描述数据帧的数据。返回数据帧中所有报头的max、min、mean、median、quantile、variance、standard deviation、mean、absolute deviation、amplitude、root mean squared、kurtosis、skewness和count
功能
fromanalytics_utils.describe_dataimportdescribe_datadescribe_data(dataframe,headers,lang)
dataframe:用于描述的数据框
headers:describe的dataframe列。返回的描述:
- 最大值
- 最小值
- 平均值
- 中值
- [1 3]-四分位数
- 方差
- 标准偏差
- 平均绝对偏差
- 振幅
- 均方根
- 峰度
- 偏度
- 计数
lang:输出语言(默认:"pt")
- "pt":葡萄牙语
- "en":英语
终端
- 帮助消息
usage: describe_data.py [-h] -d DATASET [-f FILE_OUT][-o ORIENT][-l LANG][-pd [PARSE_DATES [PARSE_DATES ...]]][-i [INDEX [INDEX ...]]][-hd [H [H ...]]] optional arguments: -h, --help show this help message and exit -d DATASET, --dataset DATASET path to input dataset -f FILE_OUT, --file-out FILE_OUT path to file of output json -o ORIENT, --orient ORIENT format json output {'split', 'records', 'index', 'values', 'table', 'columns'}(default: 'columns') -l LANG, --lang LANG language for the output result {'pt', 'en'}(default: 'pt') -pd [PARSE_DATES [PARSE_DATES ...]], --parse-dates [PARSE_DATES [PARSE_DATES ...]] Headers of columns to parse dates. A column named datetime is created. -i [INDEX [INDEX ...]], --index [INDEX [INDEX ...]] Headers of columns to set as index. -hd [H [H ...]], --headers [H [H ...]] an string for the header in the dataset
- 用法
python describe_data.py -d dataset.csv -pd date time -i datetime -f out.json
关联
此函数返回数据帧列之间的相关性。这与pandas软件包中的corr功能相同。
功能
fromanalytics_utils.correlateimportcorrelatecorrelate(dataframe,method,min_periods)
数据帧:相关数据帧
方法:相关方法(默认值:{"pearson"}):
- 皮尔逊
- 肯德尔
- 斯皮尔曼
- 或可通过输入两个1d ndarrays进行调用
min_periods:为获得有效结果,每对列所需的最小观测数。目前仅适用于皮尔逊和斯皮尔曼相关性(默认值:{1})。
终端
- 帮助消息
usage: correlate.py [-h] -d DATASET [-f FILE_OUT][-o ORIENT][-m METHOD][-p MIN_PERIODS] optional arguments: -h, --help show this help message and exit -d DATASET, --dataset DATASET path to input dataset -f FILE_OUT, --file-out FILE_OUT path to file of output json -o ORIENT, --orient ORIENT format json output {'split', 'records', 'index', 'values', 'table', 'columns'}(default: 'columns') -m METHOD, --method METHOD method of correlation {‘pearson’, ‘kendall’, ‘spearman’}(default: 'pearson') -p MIN_PERIODS, --min-periods MIN_PERIODS Minimum number of observations required per pair of columns to have a valid result. Currently only available for Pearson and Spearman correlation (default: 1).
- 用法
python correlate.py -d dataset.csv -f out.json
插值
此函数返回在nans处插值的相同形状的序列或数据帧。这是熊猫套餐的一个自适应插值函数。
功能
fromanalytics_utils.interpolateimportinterpolateinterpolate(dataframe,headers,method,limit)
数据帧:用于插值的数据帧
headers:用于插值的dataframe列(默认值:{none})。默认情况下,所有值都是内插的。
方法:插值法。请注意,对于具有多索引的dataframe/series,仅支持method='linear'。(默认值:{"linear"}):
- 线性
- 时间
- 索引
- 值
- 最近的
- 零
- 滑动
- 二次型
- 立方
- 重心
- 克朗
- 多项式
- 样条线
- 分段多项式
- pchip
限制:要填充的最大连续nan数(默认值:{none})。
终端
- 帮助消息
usage: interpolate.py [-h] -d DATASET [-f FILE_OUT][-o ORIENT][-m METHOD][-l LIMIT][-pd [PARSE_DATES [PARSE_DATES ...]]][-i [INDEX [INDEX ...]]][-hd [H [H ...]]] optional arguments: -h, --help show this help message and exit -d DATASET, --dataset DATASET path to input dataset -f FILE_OUT, --file-out FILE_OUT path to file of output json -o ORIENT, --orient ORIENT format json output {'split', 'records', 'index', 'values', 'table', 'columns'}(default: 'columns') -m METHOD, --method METHOD method of interpolation. Please note that only method='linear' is supported for DataFrame/Series with a MultiIndex. {‘linear’, ‘time’, ‘index’, ‘values’, ‘nearest’, ‘zero’, ‘slinear’, ‘quadratic’, ‘cubic’, ‘barycentric’, ‘krogh’, ‘polynomial’, ‘spline’ ‘piecewise_polynomial’, ‘pchip’}(default: 'linear') -l LIMIT, --limit LIMIT Maximum number of consecutive NaNs to fill (default: None) -pd [PARSE_DATES [PARSE_DATES ...]], --parse-dates [PARSE_DATES [PARSE_DATES ...]] Headers of columns to parse dates. A column named datetime is created. -i [INDEX [INDEX ...]], --index [INDEX [INDEX ...]] Headers of columns to set as index. -hd [H [H ...]], --headers [H [H ...]] an string for the header in the dataset
- 用法
pip install analytics-utils0
滚动窗口
此函数提供滚动窗口计算。这是熊猫套餐的翻滚功能。
功能
pip install analytics-utils1
数据帧:用于应用滚动的数据帧
窗口:移动窗口的大小。这是用于计算统计数据的观察数。每个窗口的大小都是固定的。
滚动类型:滚动方法(默认值:{"mean"}):
- 平均值
- 变量(方差)
- 标准偏差
终端
- 帮助消息
pip install analytics-utils2
- 用法
pip install analytics-utils3
指数加权移动
此函数提供指数加权函数。这是熊猫套餐的自适应EWM功能。
功能
pip install analytics-utils4
数据帧:用于应用EWM的数据帧
com:指定以质量中心α=1/(1+com)表示的衰减,对于com≥0(默认值:{none})。
SPAN:指定衰减范围,α=2/(SPAN+1),对于SPAN≥1(默认值:{none})。
半衰期:指定半衰期衰减,α=1-exp(对数(0.5)/半衰期),半衰期衰减>;0(默认值:{none})。
alpha:直接指定平滑因子α,0<;α≤1(默认值:{none})。
ignore_na:在计算权重时忽略缺少的值;指定true以重现0.15.0之前的行为(默认值:{false})。
ewm_type:ewm method(默认值:{"mean"}):
- 平均值
- 变量(方差)
- 标准偏差
headers:apply ewm的dataframe列(默认值:{none})。
终端
- 帮助消息
pip install analytics-utils5
- 用法
pip install analytics-utils6
季节性分解
使用移动平均值的季节分解。这是Statsmodels软件包的季节性分解功能。
功能
pip install analytics-utils7
dataframe:apply decompose的数据帧
型号:季节性成分类型。接受缩写(默认值:{'additive'})。
- 添加剂
- 乘法
过滤:过滤掉季节性成分的过滤系数。滤波中使用的具体移动平均法由双面确定(默认值:{none})。
freq:序列的频率。如果x不是pandas对象,则必须使用。如果x是带有timeseries索引的pandas对象(默认值:{none}),则重写x的默认周期性。
双面:滤波中使用的移动平均法。如果为true(默认),则使用filt计算居中移动平均值。如果为false,则过滤系数仅用于过去的值(默认值:{true})。
外推趋势:如果设置为>;0,则考虑到这许多(+1)个最近点,卷积产生的趋势是在两端外推的线性最小二乘法(或者,如果两个边都为假,则为一个)。如果设置为"freq",请使用freq closest points。设置此参数不会在趋势或剩余成分中产生NaN值(默认值:{0})。
headers:apply ewm的dataframe列(默认值:{none})。
终端
- 帮助消息
pip install analytics-utils8
- 用法
pip install analytics-utils9