将文本的矢量形式转换为numpy:数组太大

2024-04-16 19:50:59 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图在nltk中使用gaac对文本文档进行聚类。在

from nltk.corpus import PlaintextCorpusReader
from nltk.cluster import GAAClusterer
from gensim import corpora
import numpy
import gensim
import itertools


filepath='C:\ISSS609\Forum'
corpus=PlaintextCorpusReader(filepath,'.*')
fids=corpus.fileids()
docs=[corpus.words(f) for f in fids]
dictionary=corpora.Dictionary(docs)
vec=[dictionary.doc2bow(doc) for doc in docs]
vec2=list(itertools.chain(*vec))
vectors = [numpy.array(f) for f in vec2]
clusterer = GAAClusterer()
clusterer.cluster(vectors,False)
clusterer.dendrogram()

我得到下面的错误

^{pr2}$

请提出一个解决办法。在


Tags: infromimportnumpydocsforcorpuscluster