可视化处理机器学习问题所涉及的各种过程。

visualize_ML的Python项目详细描述


Visualize是一个python包,用于可视化处理机器学习问题时涉及的一些步骤。它构建在matplotlib等库上,用于可视化和sklearn,scipy用于统计计算。


----

当我们开始处理机器学习问题时,所涉及的一些
初始步骤是数据探索、分析,然后选择功能
。下面是这些任务的模块。

1)数据探索
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

在此阶段,我们使用**单变量逐个探索变量
分析**,这取决于变量类型是分类的还是连续的。要处理此问题,我们有**explore**模块。

>;
~explore模块
~~~~~~~~~~~~~~~~~~



bar宽度=0.2,wspace=0.5,hspace=0.8)

**连续变量**:如果是连续变量,则为每个变量绘制
*直方图*,并对
进行描述性统计。

**分类变量**:如果是2个或
更多类的分类变量,则为每个变量绘制*条形图*,并给出
描述性统计。对他们的统计。


+---------+-----------+



参数类型描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述的描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述描述的描述描述描述描述描述描述描述描述描述描述描述。数据帧这是输入d包含所有
变量
])具有两个以上类的列,到
用连续的
变量表来区分它们意味着
没有分类特性有两个以上的类。|
+——————————————————————————————————————————————————————————————|
]
+————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————/>|||相应调整。|
+—————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————|显示窗口上的子块之间的水平填充。|
+——————————————————————————————————————————————————————————————-———————————————————————————————————————————————————————————————————————————————————————————————————————————|
+——————————————————————————————————————————————————————————————————————————————————————代码::python

/*数据集取自著名的泰坦尼克号数据(kaggle)*/


=["passengerid","name"])

…图::images/explore1.png?raw=true
:alt:可选标题

ue为真和假)仅绘制数值数据。

在这里,我们在预定义的




**关系**模块中查找
>变量之间的关联和解除关联,这有助于可视化对各种
变量组合所做的分析,并查看它们之间的关系。

>;关系模块r/>::

在变量之间传送
。为了表示
它们之间关系的强度,我们使用它们之间的相关性。


图表显示相关系数以及其他
信息。




correlation=协方差(x,y)/sqrt(var(x)*var(y))

--1:完全负线性相关性
-+1:完全正线性相关,
-0:无相关性

**分类变量与分类变量**:*叠加柱形图*用于可视化关系。\**卡方检验**用于推导出变数。它返回计算的自由度为
的卡方分布的*概率*。有关chi检验的更多信息,请参见"this`

probability of 0:它表示两个分类变量都是依赖的


probability of 1:它表示两个变量都是独立的。

如果
小于**0.05**,则说明变量是相依的。

**分类变量与连续变量:**若要探讨
分类变量与连续变量之间的关系,请在每个
分类变量级别重新绘制方框图。如果水平在数量上很小,它将不会显示统计显著性。**anova检验**用于得出变量之间关系的统计显著性。

如果
leass than**0.05**,则说明变量是相依的。

-+
参数类型描述
>
+====================================================================+
类型描述;
=>===========================================+
;数据输入;数据帧;这是所有数据。对不对w输入只能是目标列的名称。|
+——————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————连续变量表意味着
])没有超过两个类的分类特征。|
+—————————————————————————————————————————————————————————————————————————————————————————|
默认值=[
]
+—————————————————————————————————————————————————————————————————————————————————要在
u size(默认值=显示窗口中垂直显示的绘图。相应地调整行大小
4)。|
+———————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————|
"auto")
+——————+——+————————————+——————————————————————————————————————————————————————————————————————————————————————播放窗口。|
=0.5)
+————————————————————————————————————————————————————————————————————————————————————————————————————————————————————|
=0.8)
+——————————————————————————————————————————————————————————————————————————————————————代码::python

/*数据集取自著名的泰坦尼克号数据(kaggle)*/
import pandas as pd
from visualize ml import relation
df=pd.read_csv("data set/train.csv")

relation.plot(df,"survive","survive","pclass","sex","sibsp","ticket","started"],drop=["passengerid","name"],bin_size=10)

…图::images/relation1.png?raw=true
:alt:可选标题

IC数据是
绘制的。只允许具有字符串值的分类标记集变量。


contribution
——


如果您想贡献和添加新功能,请随时发送pull
request`here`\br/>
此项目仍在开发中,以便报告任何错误或请求。st新功能,进入问题页面

license
----
根据"麻省理工学院许可证(MIT)"获得许可。


版权
----
ayush1997(c)2016

_这里:https://github.com/ayush1997/visualize\u ml
。_麻省理工学院许可证(MIT):https://github.com/ayush1997/visualize\u ml/blob/master/license.txt

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
爪哇太阳报。安全验证器。ValidatorException:PKIX路径生成失败   java理解为什么在onDispatchTouchEvent()返回True后仍调用onClick()   java如何在资源包中使用JSF标记/如何在资源包中重写URL?   java什么是流控制异常的替代方案?   java使用Spring数据JPA/MongoDB交叉存储,一个查询可以跨越两个数据库吗?   Apache Sling/felix中的java OSGi slf4j日志记录   为什么当我们想要水平/垂直旋转矩阵时,我们要把这个项除以2?   尝试从外部网页接收JSON字符串时出现安卓 Java NullPointerException   java执行异常:从Callable调用方法时   java在jetty上以调试模式运行webapp,使用maven jetty插件在intellij中构建成功(应用程序应在调试模式下启动)   带有内存数据库的linux Java应用程序的构建时间太长   基于java的随机数单元测试算法   java类型javax。摆动JComponent无法解析   Google日历API和UI小部件Java   java tomcat没有突然和任意地响应   java无法使用jsoup在html中获取图像src   我无法让Java接受键盘输入字符串   java如何开始使用Bambol而不让部署永远继续?   java如何使用另一个类的actionPerformed方法删除一个类/组件中的按钮?   java JSON反序列化brakets{}中的一系列对象