Python scluster包_程序模块 - PyPI - Python中文网

文本文档集的谱聚类实现

scluster的Python项目详细描述

Homepage: http://github.com/whym/scluster
Contact: http://whym.org

概述

光谱聚类一种现代聚类技术，被认为是一种有效的图像聚类方法。[1][2]

该软件根据单词包表示法[3]和tf-idf加权法[4]在文档之间查找集群。

[1]	Ulrike von Luxburg, A Tutorial on Spectral Clustering, 2006. http://arxiv.org/abs/0711.0189

[2]	Chris H. Q. Ding, Spectral Clustering, 2004. http://ranger.uta.edu/~chqding/Spectral/

[3]	http://en.wikipedia.org/wiki/Bag_of_words_model

[4]	http://en.wikipedia.org/wiki/Tf%E2%80%93idf

要求

需要以下软件。

python 2或3
努比
scipy

如何使用

将文档准备为原始文本文件，并将其放在目录中，例如“reuters”。
准备类别文件。例如，“cats.txt”可能包含：
```
14833 palm-oil veg-oil
14839 ship
```
这意味着文件'14833'中有'palm oil'和'veg oil'作为它的类别，和'14839'有'船舶'作为其类别。
运行：python scluster/clusterer.py cats.txt reusters/ -m kmeans，

注释

当你使用Reuters集合时，注意17980可能包含第10行为非Unicode字符。它应该是这样写的：“世界经济增长方面的措施…

[5]	http://www.daviddlewis.com/resources/testcollections/reuters21578/

欢迎加入QQ群-->： 979659372

推荐PyPI第三方库

热门话题: JavaSwing：如何读取组件下面的图形信息？ JAVAutil。scanner Java scanner为什么跳过代码中的nextLine（）？ html如何在jsp文件中使用内联java比较器？编组时单个元素组的java JAXB元素包装器 java如何使SeleniumWebDriver动态选择客户端证书，而无需直观地检测弹出窗口 java定位服务。FusedLocationApi。getLastLocation（mGoogleApiClient）获取null java如何快速创建指向Eclipse中元素的Javadoc链接？如何使用Java语言填充MS Word模板？ java 安卓应用程序不显示来自服务器的值 java有没有办法解决这个问题：第45行第7列path$处的预期名称。客户端[0]。服务 java如何使用ASM仅从switch中删除break语句？ java LOOK else if语句：我把它放在哪里无效的Java语句 java输出不应包含0值 java遇到意外文本时要抛出什么异常？ java如何将文本文件数组中的数字添加到2d int数组中？ java如何从列表中的对象访问属性？对象的oop锁方法（Java） java字符串连接concat（）和+运算符的有效使用