python端到端机器学习工具包(mltoolkit/mltk)
pymltoolkit的Python项目详细描述
mltoolkit
当前版本:pymltoolkit[v0.1.6]
mltoolkit(mltk)是一个python包,它提供一组用户友好的功能,帮助在数据科学研究、教学或生产项目中构建端到端的机器学习模型。
简介
mltoolkit支持机器学习应用程序开发过程的所有阶段。
安装
pip install pymltoolkit
如果安装因依赖性问题而失败,请在不依赖性的情况下执行上述命令
pip install pymltoolkit --no-dependencies
功能
- 数据提取(SQL、平面文件等)
- 探索性数据分析(统计汇总、单变量分析、可视化分布等)
- 特征工程(支持数字、文本、日期/时间。图像数据支持将集成到v0.1的后续版本中)
- 模型构建(当前仅支持二进制分类)
- 超参数调整[正在开发v0.2版]
- 交叉验证(将集成到v0.1的后续版本中)
- 模型性能分析和模型之间的比较。
- 用于执行建模和评分任务的JSON输入脚本。
- 模型构建用户界面[正在为v0.2开发]
- ML模型构建项目[正在为V0.2开发]
- auto-ml(自动机器学习)[in development for v0.2]
- 模型部署和服务[包括,将为v0.2导入]
支持的机器学习算法/软件包
- 随机林分类器:scikit learn
- logisticRegregation:statsmodels
- 深前馈神经网络(dff):张量流
- 转换神经网络(CNN):张量流
- 渐变增强:catboost
用法
importmltk
警告:python变量、函数或类名
python解释器有许多内置函数。在编写代码时,无需python编写器发出警告就可以覆盖这些定义。(https://docs.python.org/3/library/functions.html" rel="nofollow">https://docs.python.org/3/library/functions.html) 因此,请避免将这些名称用作变量、函数或类名。
<表>如果继续覆盖任何内置函数(例如list),则执行以下操作可带来内置污染。
啊!同样,避免在数据帧的列名中使用特殊字符和空格。 执行以下操作以删除列名中的特殊字符。
啊!mltoolkit示例
数据加载和探索
啊!数据预处理和特征工程
啊! AAAAAAAAA 8 啊!变量操作
啊! YYY11 是啊。 啊!13! AAAAAAA H14相关性
是啊。分离列车,验证测试数据集
啊!模型构建
啊!损失回归
AAAAAAA 18随机林
啊!神经网络
AAAAAAA H20catboost
AAAAAAAAA 21构建模型
啊! AAAAAAAAA 23评估模型
绘制模型性能曲线
啊!曲线下面积(AUC)比较
大花 啊!测试模型
是啊。比较模型和概率阈值
AAAAAAAAA 28比较模型和阈值得分(1-10分制)
AAAAAAA 29设置自定义分数边
AAAAAAA 30保存模型
啊!部署
简化的MLtoolkit ETL管道,用于评分和模型重建(需要根据项目进行定制)。
定义ETL函数
啊!评分
是啊。 啊!输出
啊!用于评分的json输入
单个或更少记录数的记录格式
啊!多条记录的拆分格式
AAAAAAA 37许可证
AAAAAAAAA 38mltoolkit项目时间表
- 2018-07-02[v0.0.1]:向github发布了数据探索、模型构建和模型评估的初始功能集。(https://github.com/sptennak/machinelearning" rel="nofollow">https://github.com/sptennak/machinelearning)。
- 2018-01-03[v0.0.2]:为IBM Coursera Data Science Capstone项目创建了更多用于数据探索的功能,包括Web抓取和地理空间数据分析,并发布到Github。(https://github.com/sptennak/coursera u capstone" rel="nofollow">https://github.com/sptennak/coursera u capstone)。
- 2019-03-20[v0.1.0]:为IBM Coursera Advanced Data Science Professional Certificate Capstone项目开发并发布了模型构建和服务框架的初始版本。(https://github.com/sptennak/ibm-coursera-advanced-data-science-capstone)。
- 2019-07-02[v0.1.2]:pymltoolkit python包的第一个版本,它是一个类和函数的集合,有助于端到端的机器学习模型的构建,并通过restful api提供服务。
- 2019-07-04[v0.1.3]:小错误修复。
- 2019-07-14[v0.1.4]:改进的文档、集成的tensorflow模型、增强功能和小错误修复。
- 2019-07-28[v0.1.5]:集成的catboost模型,改进的模型构建和服务框架,文本分析功能,支持对ml模型构建和评分过程的json输入/输出,增强和错误修复。
- 2019-08-12[v0.1.6]:改进的特性、错误修复、对ml模型构建和评分过程(json-mls)增强的json输入/输出以及错误修复。
未来发布计划
- TBD[v0.1.7]:改进文档和输出格式,处理不平衡的示例,错误修复。
- TBD[v0.1.8]:集成图像分类模型部署、集成交叉验证和超参数调整。
- TBD[v0.1.9]:端置模型、UI预览、改进的功能选择、交叉验证和超参数调整功能、增强和错误修复。
- TBD[v0.1.10]:ML模型构建项目、增强和错误修复。
- 2019-12-31[v0.1.11]:全面的文档、实现后评估功能、增强的数据输入和输出功能、带有最终增强功能的初始版本的主要错误修复版本。
- TBD[v0.2.0]:导入的模型构建和服务框架工作和用户界面,支持更多的机器学习算法,支持多类分类和增强的文本分析功能。
- TBD[v0.3.0]:改进的可扩展性和性能,自动机器学习。
- 待定[v0.4.0]:建立持续的学习模型。
引用为
importmltk9
参考文献
- https://pandas.pydata.org/
- https://scikit learn.org
- https://www.numpy.org/
- https://docs.python.org/3.6/library/re.html
- https://www.statsmodels.org
- https://matplotlib.org/
- http://flask.pocoo.org/
- https://catboost.ai/
- http://json.org/
推荐PyPI第三方库
- 热门话题
- java调用Python函数作为TEID中的UDF java Android。支持v4导入不工作 java如何影响具有静态属性的类 java如何在从glTexImage2D()分配后编辑纹理的像素颜色 javaspringboot+rediscache+@Cacheable适用于某些方法,而不适用于其他方法 java无法将动态Web模块方面从3.0更改为2.5 java如何在新选项卡中显示打印的文档? java Google Cloud Endpoints API方法仅在删除用户参数时成功调用 java为什么我可以使用Stack<Double>但不能使用Stack<Double>? java JDBC PreparedStatement似乎忽略了占位符 java如何设置JInternalFrame的标准图标化位置? Java文件。copy()不复制文件 基于另一个类的java显示arraylist? java Android Studio:错误:非法字符:'\u2028' 对象(Java)无法实例化类型映像? javascript错误:飞行前响应的HTTP状态代码401无效 java确保泛型vararg参数具有相同的类型