def unpack_dict(matrix, map_index_to_word):
table = sorted(map_index_to_word, key=map_index_to_word.get)
data = matrix.data
indices = matrix.indices
indptr = matrix.indptr
num_doc = matrix.shape[0]
return [{k:v for k,v in zip([table[word_id] for word_id in
indices[indptr[i]:indptr[i+1]] ],
data[indptr[i]:indptr[i+1]].tolist())} \
for i in range(num_doc) ]
wiki['tf_idf'] = unpack_dict(tf_idf, map_index_to_word)
把索引映射到单词词典单词:索引几千字。 tfèidf是TFIDF稀疏向量 DataFrame wiki显示在此处的屏幕截图中
同:
这个?你知道吗
外在的理解是
只是一个简单的循环
num_doc
次。你知道吗里面有一本字典。你知道吗
zip
从以下位置获取k
键:和
v
值来自:因此
i
,外部变量创建了切片范围indptr[i]:indptr[i+1]
。你知道吗所以它在列一个字典清单。字典键来自
table[word_id]
,其中word_id
位于indices
的范围内,值是data
的对应范围。你知道吗相关问题 更多 >
编程相关推荐