pandas数据帧的k-means++聚类

k-means-plus-plus的Python项目详细描述


k-means++在pandas中的实现
==

==[k-means++聚类算法](http://en.wikipedia.org/wiki/k-means%2b%2b)使用[pandas](http://pandas.pydata.org/)。

它比[scikit learn]慢得多(http://scikit learn.org/stable/modules/generated/sklearn.cluster.kmeans.html)。取而代之。

这与python 3不兼容(现在还不兼容)。
*[熊猫](http://pandas.pydata.org/)(显然)。
*[熊猫](http://numpy.org)



*克隆存储库:


*输入新创建的包含repo的文件夹


*并手动运行安装:




----

构造函数参数:

*`data_frame`:表示要群集的数据的pandas数据帧。行表示观察结果,列表示变量。

*`k`:所需的群集数。

*`columns=none`:要对数据进行群集的列名列表。如果未提供此参数,则选择所有列。**注意:您想要集群的**列必须是数字的,并且没有“npim.nAn”值。

*“Max迭代”=“否”:您希望迭代k-均值的最大次数。如果未提供任何值,则迭代将继续,直到达到稳定性(即集群分配在一次迭代和下一次迭代之间不会改变)。

*`appended_column_name=none`:如果此值是用字符串设置的,然后,一个列将被附加到数据中,该列具有给定的名称,其中包含集群分配(从0到“k-1”的整数)。如果未设置此参数,则仍可以通过“clusters”属性访问群集。

查看“examples”文件夹。

todo:
----


*附加功能采用k-means++集群的迭代并通过一致矩阵、Jaccard索引等进行比较。

*给定一个数据帧,实现所谓的[elbow方法](http://en.wikipedia.org/wiki/determining-the-u-number-of-u-clusters-in-u-a-u-data-set-the-u-elbow-u-method)来确定“k”的最佳值。

*~~使之成为一个可以通过pip安装的合适的python模块。~~

*python 3兼容性(可能通过6)。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
当使用RequestDispatcher时,servlets Java最终没有被调用   java生成对具有可变参数数的方法的调用   java如何使用select子句中的参数化列映射iBATIS的查询?   java无法创建类型为org的插件。阿帕奇。登录中。log4j。果心阿佩德。元素RollingFile的RollingFileAppender   java当子实体和父实体之间存在OneTONE JPA关系时,是否可以将其与父实体一起持久化?   Android上的java Facebook集成fbconnect断开链接   获取方法调用方的java机制   从列表创建Oracle阵列时出现java问题   添加和检索元素的ArrayList的java ArrayList   在java中从字符串中删除无效的XML字符   java如何构建完整生成的maven模块   java如何准确地改变播放所有分辨率midi文件的速度?   shell javac:无效标志:/src/中位_度。ubuntu中的java   java使用从其他类的方法检索到的信息