python端到端机器学习工具包(mltoolkit/mltk)

pymltoolkit的Python项目详细描述


mltoolkit

当前版本:pymltoolkit[v0.1.6]

mltoolkit(mltk)是一个python包,它提供一组用户友好的功能,帮助在数据科学研究、教学或生产项目中构建端到端的机器学习模型。

简介

mltoolkit支持机器学习应用程序开发过程的所有阶段。

安装

pip install pymltoolkit

如果安装因依赖性问题而失败,请在不依赖性的情况下执行上述命令

pip install pymltoolkit --no-dependencies

功能

  • 数据提取(SQL、平面文件等)
  • 探索性数据分析(统计汇总、单变量分析、可视化分布等)
  • 特征工程(支持数字、文本、日期/时间。图像数据支持将集成到v0.1的后续版本中)
  • 模型构建(当前仅支持二进制分类)
  • 超参数调整[正在开发v0.2版]
  • 交叉验证(将集成到v0.1的后续版本中)
  • 模型性能分析和模型之间的比较。
  • 用于执行建模和评分任务的JSON输入脚本。
  • 模型构建用户界面[正在为v0.2开发]
  • ML模型构建项目[正在为V0.2开发]
  • auto-ml(自动机器学习)[in development for v0.2]
  • 模型部署和服务[包括,将为v0.2导入]

支持的机器学习算法/软件包

  • 随机林分类器:scikit learn
  • logisticRegregation:statsmodels
  • 深前馈神经网络(dff):张量流
  • 转换神经网络(CNN):张量流
  • 渐变增强:catboost
  • 更多型号将在未来的版本中添加…

用法

importmltk

警告:python变量、函数或类名

python解释器有许多内置函数。在编写代码时,无需python编写器发出警告就可以覆盖这些定义。(https://docs.python.org/3/library/functions.html" rel="nofollow">https://docs.python.org/3/library/functions.html) 因此,请避免将这些名称用作变量、函数或类名。

<表>absallanyasciibinboolbytearray字节 可调用的chr类方法编译复杂delattrdict目录divmod枚举评估执行筛选器浮点格式冻结集getattr全局变量hasattr哈希帮助十六进制id输入intisinstanceissubClassiterlenlistlocalsmapmax内存视图min下一个对象十月打开 powprintpropertyrangereprreversedroundsetsetattr切片排序静态方法str和超级元组键入变量 <表>

如果继续覆盖任何内置函数(例如list),则执行以下操作可带来内置污染。

啊!

同样,避免在数据帧的列名中使用特殊字符和空格。 执行以下操作以删除列名中的特殊字符。

啊!

mltoolkit示例

数据加载和探索

啊!

数据预处理和特征工程

啊! AAAAAAAAA 8 啊!

变量操作

啊! YYY11 是啊。 啊!13! AAAAAAA H14

相关性

是啊。

分离列车,验证测试数据集

啊!

模型构建

啊!

损失回归

AAAAAAA 18

随机林

啊!

神经网络

AAAAAAA H20

catboost

AAAAAAAAA 21

构建模型

啊! AAAAAAAAA 23

评估模型

绘制模型性能曲线

啊!

曲线下面积(AUC)比较

大花 啊!

测试模型

是啊。

比较模型和概率阈值

AAAAAAAAA 28

比较模型和阈值得分(1-10分制)

AAAAAAA 29

设置自定义分数边

AAAAAAA 30

保存模型

啊!

部署

简化的MLtoolkit ETL管道,用于评分和模型重建(需要根据项目进行定制)。

定义ETL函数

啊!

评分

是啊。 啊!

输出

啊!

用于评分的json输入

单个或更少记录数的记录格式

啊!

多条记录的拆分格式

AAAAAAA 37

许可证

AAAAAAAAA 38

mltoolkit项目时间表

  • 2018-07-02[v0.0.1]:向github发布了数据探索、模型构建和模型评估的初始功能集。(https://github.com/sptennak/machinelearning" rel="nofollow">https://github.com/sptennak/machinelearning)。
  • 2018-01-03[v0.0.2]:为IBM Coursera Data Science Capstone项目创建了更多用于数据探索的功能,包括Web抓取和地理空间数据分析,并发布到Github。(https://github.com/sptennak/coursera u capstone" rel="nofollow">https://github.com/sptennak/coursera u capstone)。
  • 2019-03-20[v0.1.0]:为IBM Coursera Advanced Data Science Professional Certificate Capstone项目开发并发布了模型构建和服务框架的初始版本。(https://github.com/sptennak/ibm-coursera-advanced-data-science-capstone)。
  • 2019-07-02[v0.1.2]:pymltoolkit python包的第一个版本,它是一个类和函数的集合,有助于端到端的机器学习模型的构建,并通过restful api提供服务。
  • 2019-07-04[v0.1.3]:小错误修复。
  • 2019-07-14[v0.1.4]:改进的文档、集成的tensorflow模型、增强功能和小错误修复。
  • 2019-07-28[v0.1.5]:集成的catboost模型,改进的模型构建和服务框架,文本分析功能,支持对ml模型构建和评分过程的json输入/输出,增强和错误修复。
  • 2019-08-12[v0.1.6]:改进的特性、错误修复、对ml模型构建和评分过程(json-mls)增强的json输入/输出以及错误修复。

未来发布计划

  • TBD[v0.1.7]:改进文档和输出格式,处理不平衡的示例,错误修复。
  • TBD[v0.1.8]:集成图像分类模型部署、集成交叉验证和超参数调整。
  • TBD[v0.1.9]:端置模型、UI预览、改进的功能选择、交叉验证和超参数调整功能、增强和错误修复。
  • TBD[v0.1.10]:ML模型构建项目、增强和错误修复。
  • 2019-12-31[v0.1.11]:全面的文档、实现后评估功能、增强的数据输入和输出功能、带有最终增强功能的初始版本的主要错误修复版本。
  • TBD[v0.2.0]:导入的模型构建和服务框架工作和用户界面,支持更多的机器学习算法,支持多类分类和增强的文本分析功能。
  • TBD[v0.3.0]:改进的可扩展性和性能,自动机器学习。
  • 待定[v0.4.0]:建立持续的学习模型。

引用为

importmltk
9

参考文献

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java调用Python函数作为TEID中的UDF   java Android。支持v4导入不工作   java如何影响具有静态属性的类   java如何在从glTexImage2D()分配后编辑纹理的像素颜色   javaspringboot+rediscache+@Cacheable适用于某些方法,而不适用于其他方法   java无法将动态Web模块方面从3.0更改为2.5   java如何在新选项卡中显示打印的文档?   java Google Cloud Endpoints API方法仅在删除用户参数时成功调用   java为什么我可以使用Stack<Double>但不能使用Stack<Double>?   java JDBC PreparedStatement似乎忽略了占位符   java如何设置JInternalFrame的标准图标化位置?   Java文件。copy()不复制文件   基于另一个类的java显示arraylist?   java Android Studio:错误:非法字符:'\u2028'   对象(Java)无法实例化类型映像?   javascript错误:飞行前响应的HTTP状态代码401无效   java确保泛型vararg参数具有相同的类型