数据勘探管道
adenine的Python项目详细描述
<;img src=“http://www.slipguru.unige.it/software/adenine/_static/ade_logo_bitmap.png”>;<;br>;
<;p>;
----
腺嘌呤:数据勘探管道
**腺嘌呤**是一个机器学习和数据挖掘的python库,用于勘探数据分析。
**估算:**您的数据集是否缺少条目?在第一步中,您可以选择不同的策略来填充缺失的值:特征中值、平均值和最频繁值或k-nn插补。**预处理:**您是否想过,如果仅以不同的方式对数据进行预处理,会有什么变化?还是说数据预处理是个好主意?**腺嘌呤**包括几个预处理过程,如:数据重入、最小最大标度、标准化和规范化。**腺嘌呤**还允许您比较不同预处理策略的分析结果。
3。**降维:**在数据探索的背景下,这一阶段对高维数据特别有帮助。该步骤包括流形学习(如isomap、多维标度等)和无监督特征学习(主成分分析、核主成分分析等)技术。**集群:**此步骤旨在以无监督的方式将数据分组到集群中。提供了k-均值、谱聚类或层次聚类等技术,
**腺嘌呤**的最终输出是紧凑的,在每个步骤中选择的算法的每个可能组合所生成的管道结果的文本和图形表示。
**adenine**可以在多个核心/机器上运行*并且完全符合“scikit learn”。
安装
`$pip install adenine`
创建配置文件
从提供的模板开始,使用您最喜欢的文本编辑器编辑配置文件
``bash
$ade_run.py-c my config file.py
$vim my config file.py
…
`````
``python
------------海报}
file_format='pdf'或'png'
觕觕觕加载示例数据集或以表格格式指定输入数据
x,y,feat觕u names,index=数据源。load('iris')
=--pipelines definition---------
----缺少值的输入-----
step0={'输入':[true,{'缺少值':'nan',
‘策略’:[‘最近邻居’]}}}
数据预处理——{n_neighbors':5}],
'mds':[true,{'metric':true}],
'tsne':[false],
'rbm':[true,{'n'u组件':256}
聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类聚类{'n_clusters':[3]},
层次结构:[false,{'n_clusters':[3],
关联性:['euclidean'],
“联系”:['ward','average']}
}
````
\2。运行管道
`` bash
$ade_run.py my config file.py
````
\3。自动生成漂亮的可供发布的绘图和文本结果
``bash
$ade_analysis.py results/ade_experiment_lt;today>;
````
**腺嘌呤**利用“mpi4py”在hpc架构上分发管道的执行
``bash
$mpi run-np<;mpi-tasks>;--hosts<;hosts-list>;ade_n.py my config file.py
```