使用稀疏表示的nltk.cluster
我刚开始学习Python。
我想用nltk.cluster这个包来对一个词-文档矩阵进行简单的kMeans聚类。这个方法在矩阵是numpy数组列表的时候可以正常工作,但我在使用稀疏矩阵(比如csc_matrix、csr_matrix或lil_matrix)时却遇到了问题。
我找到的所有信息是:
注意,向量必须使用类似numpy数组的对象。当需要提高效率时,可以使用nltk_contrib.unimelb.tacohn.SparseArrays。
我不太明白这是什么意思。有没有人能帮我解决这个问题?
提前谢谢大家!
1 个回答
1
这句话的意思是,当你输入一个向量的时候,你可以使用两种方式:要么用 numpy.array(),要么用 nltk_contrib.unimelb.tacohn.SparseArrays。
我建议你去看看这个包 nltk_contrib.unimelb.tacohn,找找里面的 SparseArrays 类。然后在把数据传给 nltk.cluster 之前,先试着用这个类来创建你的数据。