pandas数据帧的k-means++聚类
k-means-plus-plus的Python项目详细描述
k-means++在pandas中的实现
==
==[k-means++聚类算法](http://en.wikipedia.org/wiki/k-means%2b%2b)使用[pandas](http://pandas.pydata.org/)。
它比[scikit learn]慢得多(http://scikit learn.org/stable/modules/generated/sklearn.cluster.kmeans.html)。取而代之。
这与python 3不兼容(现在还不兼容)。
*[熊猫](http://pandas.pydata.org/)(显然)。
*[熊猫](http://numpy.org)
*克隆存储库:
*输入新创建的包含repo的文件夹
*并手动运行安装:
----
构造函数参数:
*`data_frame`:表示要群集的数据的pandas数据帧。行表示观察结果,列表示变量。
*`k`:所需的群集数。
*`columns=none`:要对数据进行群集的列名列表。如果未提供此参数,则选择所有列。**注意:您想要集群的**列必须是数字的,并且没有“npim.nAn”值。
*“Max迭代”=“否”:您希望迭代k-均值的最大次数。如果未提供任何值,则迭代将继续,直到达到稳定性(即集群分配在一次迭代和下一次迭代之间不会改变)。
*`appended_column_name=none`:如果此值是用字符串设置的,然后,一个列将被附加到数据中,该列具有给定的名称,其中包含集群分配(从0到“k-1”的整数)。如果未设置此参数,则仍可以通过“clusters”属性访问群集。
查看“examples”文件夹。
todo:
----
*附加功能采用k-means++集群的迭代并通过一致矩阵、Jaccard索引等进行比较。
*给定一个数据帧,实现所谓的[elbow方法](http://en.wikipedia.org/wiki/determining-the-u-number-of-u-clusters-in-u-a-u-data-set-the-u-elbow-u-method)来确定“k”的最佳值。
*~~使之成为一个可以通过pip安装的合适的python模块。~~
*python 3兼容性(可能通过6)。
==
==[k-means++聚类算法](http://en.wikipedia.org/wiki/k-means%2b%2b)使用[pandas](http://pandas.pydata.org/)。
它比[scikit learn]慢得多(http://scikit learn.org/stable/modules/generated/sklearn.cluster.kmeans.html)。取而代之。
这与python 3不兼容(现在还不兼容)。
*[熊猫](http://pandas.pydata.org/)(显然)。
*[熊猫](http://numpy.org)
*克隆存储库:
*输入新创建的包含repo的文件夹
*并手动运行安装:
----
构造函数参数:
*`data_frame`:表示要群集的数据的pandas数据帧。行表示观察结果,列表示变量。
*`k`:所需的群集数。
*`columns=none`:要对数据进行群集的列名列表。如果未提供此参数,则选择所有列。**注意:您想要集群的**列必须是数字的,并且没有“npim.nAn”值。
*“Max迭代”=“否”:您希望迭代k-均值的最大次数。如果未提供任何值,则迭代将继续,直到达到稳定性(即集群分配在一次迭代和下一次迭代之间不会改变)。
*`appended_column_name=none`:如果此值是用字符串设置的,然后,一个列将被附加到数据中,该列具有给定的名称,其中包含集群分配(从0到“k-1”的整数)。如果未设置此参数,则仍可以通过“clusters”属性访问群集。
查看“examples”文件夹。
todo:
----
*附加功能采用k-means++集群的迭代并通过一致矩阵、Jaccard索引等进行比较。
*给定一个数据帧,实现所谓的[elbow方法](http://en.wikipedia.org/wiki/determining-the-u-number-of-u-clusters-in-u-a-u-data-set-the-u-elbow-u-method)来确定“k”的最佳值。
*~~使之成为一个可以通过pip安装的合适的python模块。~~
*python 3兼容性(可能通过6)。