Python KMeans 聚类词汇

9 投票
4 回答
2029 浏览
提问于 2025-04-15 20:30

我想用Leveshtein距离来对一组单词进行k均值聚类。

1) 我知道有很多框架可以用,比如scipy和orange,它们都有k均值的实现。不过这些框架都需要一些向量作为数据,这对我来说不太合适。

2) 我需要一个好的聚类实现。我看了python-clustering,发现它有两个问题:a) 它不返回每个中心点的所有距离的总和,b) 它没有任何迭代限制或截止条件,这样就不能保证聚类的质量。python-clustering和daniweb上的聚类算法对我来说都不太好用。

有没有人能推荐一个好的库?谷歌对我没什么帮助。

4 个回答

0

你可以看看 Weka。这是一个用Java写的库,里面有一些无监督学习的实现和不错的可视化工具。我已经有一段时间没用过它了,不太确定它在真正的生产环境中表现如何,但绝对是一个很好的入门选择。

0

这其实不是对你具体问题的回答,不过我建议你看看《编程集体智慧》这本书。在每一章的最后,比如说聚类那一章,它都会提到一些关于这个主题的最佳阅读资料。

1

是的,我觉得目前没有一个合适的实现能满足我的需求。

我有一些比较复杂的要求,比如距离缓存等等。

所以我想我会自己写一个库,然后很快以GPLv3的方式发布出来。

撰写回答