文本聚类的KMeans方法

2024-05-15 15:00:57 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个包含以下两列的数据帧:

      Database Name             Name

      db1_user                  Login
      db1_client                Login
      db_care                   Login
      db_control                LoginEdit
      db_technology             View
      db_advanced               LoginEdit

我必须根据字段“Name”对数据库名称进行聚类。当我将它转换为numpy时,使用

数据集=df2.values

当我打印指纹的时候(数据集.dtype),类型为object。我刚刚开始使用集群,从我所读到的内容来看,我理解对象不是一种适合Kmeans集群的类型。你知道吗

任何帮助都会被告知!!你知道吗


Tags: 数据nameclientview类型dblogin集群
2条回答

我不明白你是想为每一组“Name”属性开发集群,还是不管“Name”的值创建n个集群;我也不明白集群在这里能实现什么。你知道吗

无论如何,就在几天前,datascience SE网站上也有一个类似的问题(来自一个R用户),要求电子邮件地址的本地名称(在“@”之前的部分)的相似性,而不是数据库名称的相似性。这个问题和你的相似。你知道吗

看看这个:

https://datascience.stackexchange.com/questions/14146/text-similarities/14148#14148

关于弦的不同距离度量,答案是全面的。你知道吗

也许这就是你应该调查的。然后决定一个在python中可用的合适的距离度量(或者一个您可以自己编程的度量),并且适合您的需要。你知道吗

你的意思是什么

Login
LoginEdit
View

应该是吗?你知道吗

k-means只适用于连续的数值数据是有原因的。因为平均值需要很好地定义这些数据。你知道吗

我认为集群根本不适用于您的问题(而是研究数据清理)。但是很明显,你需要一个能处理任意距离的方法——k-均值法不行。你知道吗

相关问题 更多 >