一套用于机器学习的可视化分析和诊断工具。
yellowbrick的Python项目详细描述
黄砖
YellowBrick是一套视觉分析和诊断工具,旨在通过SCIKIT学习促进机器学习。这个库实现了一个新的核心api对象,可视化工具scikit learn estimator,一个从数据中学习的对象。与变压器或模型类似,可视化工具通过创建模型选择工作流的可视化表示来学习数据。
可视化工具允许用户引导模型选择过程,围绕特征工程、算法选择和超参数调整建立直觉。例如,它们可以帮助诊断围绕模型复杂性和偏差、异方差性、拟合不足和过度训练或类平衡问题的常见问题。通过将可视化工具应用于模型选择工作流,Yellowbrick允许您更快地将预测模型引导到更成功的结果。
完整的文档可以在scikit yb.org上找到,包括新用户的快速入门指南。
可视化工具
可视化工具是估计器-从数据中学习的对象-其主要目标是创建允许深入了解模型选择过程的可视化。在scikit learn术语中,当可视化数据空间时,它们可以类似于变形金刚,或者包装一个类似于modelcv
的模型估计器(例如ridgecv
,lassocv
)方法有效。yellowbrick的主要目标是创建一个类似scikit learn的敏感api。我们最受欢迎的可视化工具包括:
分类可视化
- 分类报告:以热图形式显示模型的精度、召回率和每个类的F1分数的可视化分类报告
- 混淆矩阵:多类分类中类对混淆矩阵的热图视图
- 判别阈值:关于二元分类器判别阈值的精度、召回率、f1分数和排队率的可视化
- 精确召回曲线:绘制不同概率阈值下的精确与召回分数
- roc auc:绘制接收器操作员特性(roc)和曲线下面积(auc)
群集可视化
- 簇间距离映射:可视化簇的相对距离和大小
- Kelbow可视化工具:根据指定的评分函数可视化集群,查找曲线中的"肘部"。
- 剪影可视化工具:通过可视化单个模型中每个簇的剪影系数得分,选择
k
。
功能可视化
- 流形可视化:具有流形学习的高维可视化
- 平行坐标:实例的水平可视化
- 主成分分析投影:基于主成分的实例投影
- radviz可视化工具:圆形图周围实例的分离
- 排列特征:检测rela的特征的单个或成对排列运输
模型选择可视化
- 交叉验证分数:将交叉验证分数显示为条形图,平均分数绘制为水平线
- 功能重要性:根据功能在模型中的性能对其进行排序
- 学习曲线:显示模型是否可以从更多数据或更少复杂性中获益
- 递归特征消除:根据重要性查找特征的最佳子集
- 验证曲线:针对单个超参数调整模型
回归可视化
- α选择:显示α选择如何影响正则化
- 库克距离:显示实例对线性回归的影响
- 预测误差图:沿目标域查找模型分解图
- 残差图:显示训练和测试数据残差的差异
目标可视化
- 平衡装箱参考:生成一个柱状图,其中垂直线显示建议值,指向均匀分布的箱子中的箱子数据
- 类平衡:通过以条形图的形式显示每个类在数据集中的表示频率,显示训练和测试数据中每个类的支持关系
- 特征相关性:可视化因变量与目标之间的相关性
文本可视化
- 离散图:可视化关键术语在整个语料库中的分布情况
- Postag Visualizer:绘制标记语料库中不同词类的计数
- 标记频率分布:可视化语料库中术语的频率分布
- t-sne语料库可视化:使用随机邻域嵌入来投影文档
- umap语料库可视化:将相似的文档更紧密地绘制在一起以发现聚类
还有更多!Yellowbrick一直在添加新的可视化工具,所以一定要查看我们的示例gallary-甚至是开发分支-请随时为新的可视化工具贡献您的想法!