我有一个大约有100000行的数据集,我使用了1000行的样本集。当我尝试进行K均值聚类时,我得到了一个错误。你知道吗
我将数据集分为三个不同的主题,当我尝试将它们追加回原始数据帧时,我得到一个错误,即
IndexError: list index out of range
我用下面的方法得到了主要的主题,效果很好
for topic in nmf.components_:
ID_index = np.argsort(topic)[::-1][:num_major_words ]
major_words.append([vocab [i] for i in Id_index ])
然后我创建了一个具有唯一ID的dictionary,接下来我有一个for循环,如下所示,(这个可以工作,但是在980处截断,并给出索引错误)
b = 0
for i in range(len(id_topic_grouped )):
major_topic = np.argsort(id_major_grouped [i, :])[::-1][0:3]
major_topic_str = " ".join(str(m) for m in major_topic)
print ("{}:{}".format(IDs_sorted[i], major_topic_str))
b += 1
如你所见,我统计了与我的主要主题相关的分类主题,我只得到了980个,上面写着index out of range error!
然后,这里是我如何将它们与原始ID合并的
dt_mc_clt = dt_mc_clt.append({"ID":IDs_sorted[i], "Topic One":int(major_topic[0]), "Topic Two":int(major_topic[1]), "Topic Three":int(major_topic[2])}, ignore_index= True)
请问我更多的问题,如果这没有帮助或如果它不清楚,任何帮助是高度感谢。非常感谢。你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐