文本文档集的谱聚类实现

scluster的Python项目详细描述


Homepage:http://github.com/whym/scluster
Contact:http://whym.org

概述

光谱聚类一种现代聚类技术,被认为是一种有效的图像聚类方法。[1][2]

该软件根据单词包表示法[3]和tf-idf加权法[4]在文档之间查找集群。

[1]Ulrike von Luxburg, A Tutorial on Spectral Clustering, 2006. http://arxiv.org/abs/0711.0189
[2]Chris H. Q. Ding, Spectral Clustering, 2004. http://ranger.uta.edu/~chqding/Spectral/
[3]http://en.wikipedia.org/wiki/Bag_of_words_model
[4]http://en.wikipedia.org/wiki/Tf%E2%80%93idf

要求

需要以下软件。

  • python 2或3
  • 努比
  • scipy

如何使用

  1. 将文档准备为原始文本文件,并将其放在目录中,例如“reuters”。

  2. 准备类别文件。例如,“cats.txt”可能包含:

    14833 palm-oil veg-oil
    14839 ship
    

    这意味着文件'14833'中有'palm oil'和'veg oil'作为 它的类别,和'14839'有'船舶'作为其类别。

  3. 运行:python scluster/clusterer.py cats.txt reusters/ -m kmeans

注释

  • 当你使用Reuters集合时,注意17980可能包含 第10行为非Unicode字符。它应该是这样写的:“世界 经济增长方面的措施…
[5]http://www.daviddlewis.com/resources/testcollections/reuters21578/

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
JavaSwing:如何读取组件下面的图形信息?   JAVAutil。scanner Java scanner为什么跳过代码中的nextLine()?   html如何在jsp文件中使用内联java比较器?   编组时单个元素组的java JAXB元素包装器   java如何使SeleniumWebDriver动态选择客户端证书,而无需直观地检测弹出窗口   java定位服务。FusedLocationApi。getLastLocation(mGoogleApiClient)获取null   java如何快速创建指向Eclipse中元素的Javadoc链接?   如何使用Java语言填充MS Word模板?   java 安卓应用程序不显示来自服务器的值   java有没有办法解决这个问题:第45行第7列path$处的预期名称。客户端[0]。服务   java如何使用ASM仅从switch中删除break语句?   java LOOK else if语句:我把它放在哪里   无效的Java语句   java输出不应包含0值   java遇到意外文本时要抛出什么异常?   java如何将文本文件数组中的数字添加到2d int数组中?   java如何从列表中的对象访问属性?   对象的oop锁方法(Java)   java字符串连接concat()和+运算符的有效使用