我有一个包含以下两列的数据帧:
Database Name Name
db1_user Login
db1_client Login
db_care Login
db_control LoginEdit
db_technology View
db_advanced LoginEdit
我必须根据字段“Name”对数据库名称进行聚类。当我将它转换为numpy时,使用
数据集=df2.values
当我打印指纹的时候(数据集.dtype),类型为object。我刚刚开始使用集群,从我所读到的内容来看,我理解对象不是一种适合Kmeans集群的类型。你知道吗
任何帮助都会被告知!!你知道吗
我不明白你是想为每一组“Name”属性开发集群,还是不管“Name”的值创建n个集群;我也不明白集群在这里能实现什么。你知道吗
无论如何,就在几天前,datascience SE网站上也有一个类似的问题(来自一个R用户),要求电子邮件地址的本地名称(在“@”之前的部分)的相似性,而不是数据库名称的相似性。这个问题和你的相似。你知道吗
看看这个:
https://datascience.stackexchange.com/questions/14146/text-similarities/14148#14148
关于弦的不同距离度量,答案是全面的。你知道吗
也许这就是你应该调查的。然后决定一个在python中可用的合适的距离度量(或者一个您可以自己编程的度量),并且适合您的需要。你知道吗
你的意思是什么
应该是吗?你知道吗
k-means只适用于连续的数值数据是有原因的。因为平均值需要很好地定义这些数据。你知道吗
我认为集群根本不适用于您的问题(而是研究数据清理)。但是很明显,你需要一个能处理任意距离的方法——k-均值法不行。你知道吗
相关问题 更多 >
编程相关推荐