列表索引超出主题建模范围(Kmeans聚类)

2024-04-20 10:27:32 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个大约有100000行的数据集,我使用了1000行的样本集。当我尝试进行K均值聚类时,我得到了一个错误。你知道吗

我将数据集分为三个不同的主题,当我尝试将它们追加回原始数据帧时,我得到一个错误,即

IndexError: list index out of range

我用下面的方法得到了主要的主题,效果很好

for topic in nmf.components_:
ID_index = np.argsort(topic)[::-1][:num_major_words ]
major_words.append([vocab [i] for i in Id_index ])

然后我创建了一个具有唯一ID的dictionary,接下来我有一个for循环,如下所示,(这个可以工作,但是在980处截断,并给出索引错误)

b = 0
for i in range(len(id_topic_grouped )):
    major_topic = np.argsort(id_major_grouped [i, :])[::-1][0:3]
    major_topic_str = " ".join(str(m) for m in major_topic)
    print ("{}:{}".format(IDs_sorted[i], major_topic_str))

    b += 1

如你所见,我统计了与我的主要主题相关的分类主题,我只得到了980个,上面写着index out of range error!

然后,这里是我如何将它们与原始ID合并的

dt_mc_clt = dt_mc_clt.append({"ID":IDs_sorted[i], "Topic One":int(major_topic[0]), "Topic Two":int(major_topic[1]), "Topic Three":int(major_topic[2])}, ignore_index= True)

请问我更多的问题,如果这没有帮助或如果它不清楚,任何帮助是高度感谢。非常感谢。你知道吗


Tags: of数据inid主题fortopicindex