python中的e-stream实现
estream的Python项目详细描述
python中的e-stream实现
e-stream是一种基于进化的流聚类技术,它支持 五种行为:
- 外观
- 消失
- 自我进化
- 合并
- 拆分
这些行为是通过将每个集群表示为衰落集群来实现的 具有直方图(fch)的结构,对 数据。
有关基本概念的详细信息,请参见here:
udommanetanakit,k,rakthanmanon,t,waiyamai,k,e-stream:基于进化的 流聚类技术、高级数据挖掘和应用:第三 2007年国际会议
如何使用e-stream
estream包的目标是用sklearn类来代替它 可与其它API类似的变压器互换使用。
fromestreamimportEStreamfromsklearn.datasets.samples_generatorimportmake_blobsestream=EStream()data,_=make_blobs()estream.fit(data)
e-stream包含许多可以设置的参数;主要参数如下 如下:
- max_clusters:这限制了集群可以拥有的集群数量 在现有集群必须合并之前。默认设置为 10。
- stream_speed/decay_rate:这决定了 集群。在这个实现中,衰落函数是常数 默认值分别为10和0.1。
- remove_threshold:这将设置每个集群权重的下限。 在他们被认为是被移除之前。默认设置为0.1。
- merge_threshold:这决定是否可以合并两个相近的集群 一起。默认设置为1.25。
- {TT7}$:这决定了现有的最小范围 一个新数据必须要合并为一个数据的群集。违约 设置为3.0。
- active_threshold:这将设置之前每个群集的最小权重 他们被认为是积极的。默认设置为5.0。
设置这些参数的示例:
fromestreamimportEStreamfromsklearn.datasets.samples_generatorimportmake_blobsestream=EStream(max_clusters=5,merge_threshold=0.5,radius_threshold=1.5,active_threshold=3.0)data,_=make_blobs()estream.fit(data)
安装
目前,该软件包只能通过PyPI:
pip install estream
或手动安装:
wget https://github.com/mickeycj/estream/archive/master.zip
unzip master.zip
rm master.zip
cd estream-master
python setup.py install
帮助和支持
目前,还没有专门的文档,所以有任何问题或 问题可以通过我的email提出。
引文
如果你在工作中使用这个软件,请引用 高级数据挖掘与应用:第三届国际会议:
@inproceedings{inproceedings,author={Udommanetanakit, Komkrit, and Rakthanmanon, Thanawin and Waiyamai, Kitsana},year={2007},month={08},pages={605-615},title={E-Stream: Evolution-Based Technique for Stream Clustering},volume={4632},doi={10.1007/978-3-540-73871}}
此外,此实现基于e-stream的moa实现(和 其他相关算法)。这个 原始源代码可以在repository中找到。
许可证
estream包在gnu通用公共许可下。
贡献
我们欢迎您的贡献!从代码到笔记本和 示例/文档对本项目的发展非常有价值。到 请投稿fork this project ,进行更改并提交请求。我会尽我最大的努力 发布并将代码合并到主分支中。
Author: | Chanon Jenakom |
---|---|
Version: | 0.0.3 |
Dedicated: | To DAKDL, Kasetsart University |