使用稀疏表示的nltk.cluster

0 投票
1 回答
862 浏览
提问于 2025-04-16 12:05

我刚开始学习Python。

我想用nltk.cluster这个包来对一个词-文档矩阵进行简单的kMeans聚类。这个方法在矩阵是numpy数组列表的时候可以正常工作,但我在使用稀疏矩阵(比如csc_matrix、csr_matrix或lil_matrix)时却遇到了问题。

我找到的所有信息是:

注意,向量必须使用类似numpy数组的对象。当需要提高效率时,可以使用nltk_contrib.unimelb.tacohn.SparseArrays。

我不太明白这是什么意思。有没有人能帮我解决这个问题?

提前谢谢大家!

1 个回答

1

这句话的意思是,当你输入一个向量的时候,你可以使用两种方式:要么用 numpy.array(),要么用 nltk_contrib.unimelb.tacohn.SparseArrays。

我建议你去看看这个包 nltk_contrib.unimelb.tacohn,找找里面的 SparseArrays 类。然后在把数据传给 nltk.cluster 之前,先试着用这个类来创建你的数据。

撰写回答