python分析脚本将克服数据分析中的瘫痪。
paralytics的Python项目详细描述
这是什么?
paralletics创建包是为了简化和加速重复 建模和预测分析期间的任务。它特别强调 对数据进行预处理,这往往是建模的最艰苦阶段。
此程序包的目的是将重复性的 特定于问题的方法处理给定问题之前的活动,包括 其中包括应用机器学习技术的优化,即 然而,大多数数据科学家希望将大部分精力投入到, 根据准备不足的数据,它通常只占全部工作时间的一小部分 到项目中去。
主要功能
突出显示麻痹症患者的主要功能:
- 使用双交叉验证扩展分类变量的目标编码。 附加正则化技术防止稀疏类别的偏袒 减少对训练集的过度调整,有效减少 过度装配。
- 使用浅决策树或 基于spearman秩次相关的方法。
- 正在处理读取到
DataFrames,
包括:
- 变量类型的自动统一,
- 稀疏类别分组,
- 将其唯一元素表示二进制响应的文本变量投影到 二进制变量,
- 缺失数据的归责。
- 使用诸如variance-inflation factor(vif)或correlation等因子降低共线性。
安装
依赖项
paralletics检查包要求,如果需要,在安装过程中安装 自动处理。paralletics上主要使用的软件包是:
- NumPy(>;=1.15.4)
- Pandas(>;=0.23.4)
- scikit-learn(>;=0.20.1)
- SciPy(>;=1.1.0)
对于可视化效果:
- matplotlib(>;=3.0.2)
安装软件包的最简单方法是使用pip:
pip install paralytics
如果要忽略软件包升级(当您的版本不符合要求时),请运行:
pip install paralytics --no-deps
当需要需要需要可选依赖项的功能时,您可以运行以下命令来安装这些额外的需求:
pip install paralytics[<extra-name>]
例如,要使用BaseSeleniumBrowser(需要硒)和VIFSelector(需要statsmodels),请运行:
pip install paralytics[browser,vif]
可以通过以下方式安装所有附加组件:
pip install paralytics[all]
您始终可以直接从githubrepository:
pip install git+https://github.com/mrtovsky/Paralytics.git