使用稀疏表示的nltk.cluster

0 投票

1 回答

862 浏览

提问于 2025-04-16 12:05

我刚开始学习Python。

我想用nltk.cluster这个包来对一个词-文档矩阵进行简单的kMeans聚类。这个方法在矩阵是numpy数组列表的时候可以正常工作，但我在使用稀疏矩阵（比如csc_matrix、csr_matrix或lil_matrix）时却遇到了问题。

我找到的所有信息是：

注意，向量必须使用类似numpy数组的对象。当需要提高效率时，可以使用nltk_contrib.unimelb.tacohn.SparseArrays。

我不太明白这是什么意思。有没有人能帮我解决这个问题？

提前谢谢大家！

nltk kmeans numpy arrays clustering csr_matrix lil_matrix sparse matrices csc_matrix

1 个回答

这句话的意思是，当你输入一个向量的时候，你可以使用两种方式：要么用 numpy.array()，要么用 nltk_contrib.unimelb.tacohn.SparseArrays。

我建议你去看看这个包 nltk_contrib.unimelb.tacohn，找找里面的 SparseArrays 类。然后在把数据传给 nltk.cluster 之前，先试着用这个类来创建你的数据。

回答于 2025-04-16 由 Python大师

分享举报