文本聚类的KMeans方法

Database Name Name db1_user Login db1_client Login db_care Login db_control LoginEdit db_technology View db_advanced LoginEdit

2条回答

网友

1楼 · 编辑于 2024-05-15 15:00:57

我不明白你是想为每一组“Name”属性开发集群，还是不管“Name”的值创建n个集群；我也不明白集群在这里能实现什么。你知道吗

无论如何，就在几天前，datascience SE网站上也有一个类似的问题（来自一个R用户），要求电子邮件地址的本地名称（在“@”之前的部分）的相似性，而不是数据库名称的相似性。这个问题和你的相似。你知道吗

看看这个：

关于弦的不同距离度量，答案是全面的。你知道吗

也许这就是你应该调查的。然后决定一个在python中可用的合适的距离度量（或者一个您可以自己编程的度量），并且适合您的需要。你知道吗

网友

2楼 · 编辑于 2024-05-15 15:00:57

你的意思是什么

Login
LoginEdit
View

应该是吗？你知道吗

k-means只适用于连续的数值数据是有原因的。因为平均值需要很好地定义这些数据。你知道吗

我认为集群根本不适用于您的问题（而是研究数据清理）。但是很明显，你需要一个能处理任意距离的方法——k-均值法不行。你知道吗