pandas数据帧的k-means++聚类

k-means-plus-plus的Python项目详细描述


k-means++在pandas中的实现
==

==[k-means++聚类算法](http://en.wikipedia.org/wiki/k-means%2b%2b)使用[pandas](http://pandas.pydata.org/)。

它比[scikit learn]慢得多(http://scikit learn.org/stable/modules/generated/sklearn.cluster.kmeans.html)。取而代之。

这与python 3不兼容(现在还不兼容)。
*[熊猫](http://pandas.pydata.org/)(显然)。
*[熊猫](http://numpy.org)



*克隆存储库:


*输入新创建的包含repo的文件夹


*并手动运行安装:




----

构造函数参数:

*`data_frame`:表示要群集的数据的pandas数据帧。行表示观察结果,列表示变量。

*`k`:所需的群集数。

*`columns=none`:要对数据进行群集的列名列表。如果未提供此参数,则选择所有列。**注意:您想要集群的**列必须是数字的,并且没有“npim.nAn”值。

*“Max迭代”=“否”:您希望迭代k-均值的最大次数。如果未提供任何值,则迭代将继续,直到达到稳定性(即集群分配在一次迭代和下一次迭代之间不会改变)。

*`appended_column_name=none`:如果此值是用字符串设置的,然后,一个列将被附加到数据中,该列具有给定的名称,其中包含集群分配(从0到“k-1”的整数)。如果未设置此参数,则仍可以通过“clusters”属性访问群集。

查看“examples”文件夹。

todo:
----


*附加功能采用k-means++集群的迭代并通过一致矩阵、Jaccard索引等进行比较。

*给定一个数据帧,实现所谓的[elbow方法](http://en.wikipedia.org/wiki/determining-the-u-number-of-u-clusters-in-u-a-u-data-set-the-u-elbow-u-method)来确定“k”的最佳值。

*~~使之成为一个可以通过pip安装的合适的python模块。~~

*python 3兼容性(可能通过6)。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java从Struts操作的钩子更改表单值(Liferay 6.2)   java如何改变Spring MVC处理url“点”字符的行为   Clojure中使用Java接口的问题   junit如何模拟comosDB azure java集成客户端?   运行函数时发生java错误   netbeans Java。jar文件和依赖项   Eclipse中文本字段中的java输入类型   在JAVA中,将集合变量从实时批处理运行时传递到调用批处理文件   java通过Bean验证API中的自定义消息管理异常   XML到json的转换,在Java中,同时保留数据类型   根据JAVA中的列名从Excel文件中获取单元格值   在AsyncTask的doInBackground中未调用java FirebaseMessagingService   java如何在数据库中插入一行?