具有数据分析功能的包

analytics-utils的Python项目详细描述


分析-实用程序

包包含数据分析功能

安装

pip install analytics-utils

用法

描述数据

此函数用于描述数据帧的数据。返回数据帧中所有报头的max、min、mean、median、quantile、variance、standard deviation、mean、absolute deviation、amplitude、root mean squared、kurtosis、skewness和count

功能

fromanalytics_utils.describe_dataimportdescribe_datadescribe_data(dataframe,headers,lang)
  • dataframe:用于描述的数据框

  • headers:describe的dataframe列。返回的描述:

    • 最大值
    • 最小值
    • 平均值
    • 中值
    • [1 3]-四分位数
    • 方差
    • 标准偏差
    • 平均绝对偏差
    • 振幅
    • 均方根
    • 峰度
    • 偏度
    • 计数
  • lang:输出语言(默认:"pt")

    • "pt":葡萄牙语
    • "en":英语

终端

  • 帮助消息
usage: describe_data.py [-h] -d DATASET [-f FILE_OUT][-o ORIENT][-l LANG][-pd [PARSE_DATES [PARSE_DATES ...]]][-i [INDEX [INDEX ...]]][-hd [H [H ...]]]

optional arguments:
  -h, --help            show this help message and exit
  -d DATASET, --dataset DATASET
                        path to input dataset
  -f FILE_OUT, --file-out FILE_OUT
                        path to file of output json
  -o ORIENT, --orient ORIENT
                        format json output {'split', 'records', 'index',
                        'values', 'table', 'columns'}(default: 'columns')
  -l LANG, --lang LANG  language for the output result {'pt', 'en'}(default:
                        'pt')
  -pd [PARSE_DATES [PARSE_DATES ...]], --parse-dates [PARSE_DATES [PARSE_DATES ...]]
                        Headers of columns to parse dates. A column named
                        datetime is created.
  -i [INDEX [INDEX ...]], --index [INDEX [INDEX ...]]
                        Headers of columns to set as index.
  -hd [H [H ...]], --headers [H [H ...]]
                        an string for the header in the dataset
  • 用法
python describe_data.py -d dataset.csv -pd date time -i datetime -f out.json

关联

此函数返回数据帧列之间的相关性。这与pandas软件包中的corr功能相同。

功能

fromanalytics_utils.correlateimportcorrelatecorrelate(dataframe,method,min_periods)
  • 数据帧:相关数据帧

  • 方法:相关方法(默认值:{"pearson"}):

    • 皮尔逊
    • 肯德尔
    • 斯皮尔曼
    • 或可通过输入两个1d ndarrays进行调用
  • min_periods:为获得有效结果,每对列所需的最小观测数。目前仅适用于皮尔逊和斯皮尔曼相关性(默认值:{1})。

终端

  • 帮助消息
usage: correlate.py [-h] -d DATASET [-f FILE_OUT][-o ORIENT][-m METHOD][-p MIN_PERIODS]

optional arguments:
  -h, --help            show this help message and exit
  -d DATASET, --dataset DATASET
                        path to input dataset
  -f FILE_OUT, --file-out FILE_OUT
                        path to file of output json
  -o ORIENT, --orient ORIENT
                        format json output {'split', 'records', 'index',
                        'values', 'table', 'columns'}(default: 'columns')
  -m METHOD, --method METHOD
                        method of correlation {‘pearson’, ‘kendall’,
                        ‘spearman’}(default: 'pearson')
  -p MIN_PERIODS, --min-periods MIN_PERIODS
                        Minimum number of observations required per pair of
                        columns to have a valid result. Currently only
                        available for Pearson and Spearman correlation
                        (default: 1).
  • 用法
python correlate.py -d dataset.csv -f out.json

插值

此函数返回在nans处插值的相同形状的序列或数据帧。这是熊猫套餐的一个自适应插值函数。

功能

fromanalytics_utils.interpolateimportinterpolateinterpolate(dataframe,headers,method,limit)
  • 数据帧:用于插值的数据帧

  • headers:用于插值的dataframe列(默认值:{none})。默认情况下,所有值都是内插的。

  • 方法:插值法。请注意,对于具有多索引的dataframe/series,仅支持method='linear'。(默认值:{"linear"}):

    • 线性
    • 时间
    • 索引
    • 最近的
    • 滑动
    • 二次型
    • 立方
    • 重心
    • 克朗
    • 多项式
    • 样条线
    • 分段多项式
    • pchip
  • 限制:要填充的最大连续nan数(默认值:{none})。

终端

  • 帮助消息
usage: interpolate.py [-h] -d DATASET [-f FILE_OUT][-o ORIENT][-m METHOD][-l LIMIT][-pd [PARSE_DATES [PARSE_DATES ...]]][-i [INDEX [INDEX ...]]][-hd [H [H ...]]]

optional arguments:
  -h, --help            show this help message and exit
  -d DATASET, --dataset DATASET
                        path to input dataset
  -f FILE_OUT, --file-out FILE_OUT
                        path to file of output json
  -o ORIENT, --orient ORIENT
                        format json output {'split', 'records', 'index',
                        'values', 'table', 'columns'}(default: 'columns')
  -m METHOD, --method METHOD
                        method of interpolation. Please note that only
                        method='linear' is supported for DataFrame/Series with
                        a MultiIndex. {‘linear’, ‘time’, ‘index’, ‘values’,
                        ‘nearest’, ‘zero’, ‘slinear’, ‘quadratic’, ‘cubic’,
                        ‘barycentric’, ‘krogh’, ‘polynomial’, ‘spline’
                        ‘piecewise_polynomial’, ‘pchip’}(default: 'linear')
  -l LIMIT, --limit LIMIT
                        Maximum number of consecutive NaNs to fill (default:
                        None)
  -pd [PARSE_DATES [PARSE_DATES ...]], --parse-dates [PARSE_DATES [PARSE_DATES ...]]
                        Headers of columns to parse dates. A column named
                        datetime is created.
  -i [INDEX [INDEX ...]], --index [INDEX [INDEX ...]]
                        Headers of columns to set as index.
  -hd [H [H ...]], --headers [H [H ...]]
                        an string for the header in the dataset
  • 用法
pip install analytics-utils
0

滚动窗口

此函数提供滚动窗口计算。这是熊猫套餐的翻滚功能。

功能

pip install analytics-utils
1
  • 数据帧:用于应用滚动的数据帧

  • 窗口:移动窗口的大小。这是用于计算统计数据的观察数。每个窗口的大小都是固定的。

  • 滚动类型:滚动方法(默认值:{"mean"}):

    • 平均值
    • 变量(方差)
    • 标准偏差

终端

  • 帮助消息
pip install analytics-utils
2
  • 用法
pip install analytics-utils
3

指数加权移动

此函数提供指数加权函数。这是熊猫套餐的自适应EWM功能。

功能

pip install analytics-utils
4
  • 数据帧:用于应用EWM的数据帧

  • com:指定以质量中心α=1/(1+com)表示的衰减,对于com≥0(默认值:{none})。

  • SPAN:指定衰减范围,α=2/(SPAN+1),对于SPAN≥1(默认值:{none})。

  • 半衰期:指定半衰期衰减,α=1-exp(对数(0.5)/半衰期),半衰期衰减>;0(默认值:{none})。

  • alpha:直接指定平滑因子α,0<;α≤1(默认值:{none})。

  • ignore_na:在计算权重时忽略缺少的值;指定true以重现0.15.0之前的行为(默认值:{false})。

  • ewm_type:ewm method(默认值:{"mean"}):

    • 平均值
    • 变量(方差)
    • 标准偏差
  • headers:apply ewm的dataframe列(默认值:{none})。

终端

  • 帮助消息
pip install analytics-utils
5
  • 用法
pip install analytics-utils
6

季节性分解

使用移动平均值的季节分解。这是Statsmodels软件包的季节性分解功能。

功能

pip install analytics-utils
7
  • dataframe:apply decompose的数据帧

  • 型号:季节性成分类型。接受缩写(默认值:{'additive'})。

    • 添加剂
    • 乘法
  • 过滤:过滤掉季节性成分的过滤系数。滤波中使用的具体移动平均法由双面确定(默认值:{none})。

  • freq:序列的频率。如果x不是pandas对象,则必须使用。如果x是带有timeseries索引的pandas对象(默认值:{none}),则重写x的默认周期性。

  • 双面:滤波中使用的移动平均法。如果为true(默认),则使用filt计算居中移动平均值。如果为false,则过滤系数仅用于过去的值(默认值:{true})。

  • 外推趋势:如果设置为>;0,则考虑到这许多(+1)个最近点,卷积产生的趋势是在两端外推的线性最小二乘法(或者,如果两个边都为假,则为一个)。如果设置为"freq",请使用freq closest points。设置此参数不会在趋势或剩余成分中产生NaN值(默认值:{0})。

  • headers:apply ewm的dataframe列(默认值:{none})。

终端

  • 帮助消息
pip install analytics-utils
8
  • 用法
pip install analytics-utils
9

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java为什么stripVersion不能在带有mojo依赖项的mavendependencyplugin上工作   java存储具有不同功能的大量对象   java Spring MockMvc自定义验证器未在Spring容器中注册/调用   javascript程序编辑实体而不是添加   C++如何在java上检索图形卡信息?   java如何在没有方法参数的方法上使用@cacheable注释的键   java如何获取特定用户或学生的JSON   java可序列化AjaxRequestTarget   java Tomcat 8禁用分块编码过滤器   java这个简单的Swingbase类是线程安全的吗?   java调用Gdi32。使用JNA获取对象   如何使用来自其他类Java Android onClick的方法?   json序列化已经有了id(java.lang.String)的POJO   java使用jsp上传多个文件?   java有没有办法为Android项目在EclipseIndigo上设置JVM参数?   Eclipse中的java,为什么它告诉我添加一个已经存在的分号?   Java中的正则表达式拆分行   Java:在单行中赋值