从成对词移动器距离得分列表构造数据帧

# Tokenize all sentences in a column tokenized_sentences = [s.split() for s in df[col]] # calculate distance between 2 responses using wmd def find_similar_docs(sentence_1, sentence_2): distance = model.wv.wmdistance(sentence_1, sentence_2) return distance # find response pairs pairs_sentences = list(combinations(tokenized_sentences, 2)) # get all similiarity scores between sentences list_of_sim = [] for sent_pair in pairs_sentences: sim_curr_pair = find_similar_docs(sent_pair[0], sent_pair[1]) list_of_sim.append(sim_curr_pair)

1条回答

网友

1楼 · 发布于 2024-04-25 17:24:40

使用numpy生成距离矩阵，然后转换为数据帧

import numpy as np
import pandas as pd

# calculate distance between 2 responses using wmd
def find_similar_docs(sentence_1, sentence_2):
    distance = model.wv.wmdistance(sentence_1, sentence_2)
    return distance
  
# create distance matrix
tokenized_sentences = [s.split() for s in df[col]]
l = len(tokenized_sentences)
distances = np.zeros((l, l))
for i in range(l):
    for j in range(l):
        distances[i, j] = find_similar_docs(tokenized_sentences[i], tokenized_sentences[j])

# make pandas dataframe
labels = ['sentence' + str(i + 1) for i in range(l)]
df = pd.DataFrame(data=distances, index=labels, columns=labels)
print(df)

相关问题更多 >

编程相关推荐

热门问题

热门文章