Python在dataframe上查找集合中具有单词对的单词

bigramf freq 0 (DNA, yang) 15 1 (DNA, dalam) 6 2 (DNA, ini) 5 3 (DNA, memiliki) 4 4 (DNA, unting) 4 5 (pada, DNA) 4 6 (pada, urutan) 3 7 (yang, diperoleh) 3 8 (yang, lebih) 3 9 (pada, sejumlah) 2 10 (pada, RNA) 2 11 (pada, satu) 2 12 (yang, berbeda) 2 13 (yang, sama) 2 14 (yang, tumpang) 2

yang [('lebih', 3), ('diperoleh', 3), ('berbeda', 2), ('tumpang', 2), ('sama', 2)] DNA [('yang', 15), ('dalam', 6), ('ini', 5), ('memiliki', 4), ('unting', 4)] pada [('DNA', 4), ('urutan', 3), ('sejumlah', 2), ('RNA', 2), ('satu', 2)]

2条回答

网友

1楼 · 编辑于 2024-05-15 12:12:46

首先将具有元组的列转换为新的2列（不要使用apply(pd.Series)，因为^{}），然后按^{}中的^{}筛选匹配的值，并将^{}中的值转换为元组列表：

s = {'DNA',
 'pada',
 'yang'}

df[['s', 'v']] = pd.DataFrame(df['bigramf'].tolist(), index=df.index)

s = df[df['s'].isin(s)].groupby('s')['v','freq'].apply(lambda x: list(map(tuple, x.values)))
print (s)
s
DNA     [(yang, 15), (dalam, 6), (ini, 5), (memiliki, ...
pada    [(DNA, 4), (urutan, 3), (sejumlah, 2), (RNA, 2...
yang    [(diperoleh, 3), (lebih, 3), (berbeda, 2), (sa...
dtype: object

如果需要，请添加^{}：

d = s.to_dict()
print (d)
{'DNA': [('yang', 15), ('dalam', 6), ('ini', 5), ('memiliki', 4), ('unting', 4)], 
 'pada': [('DNA', 4), ('urutan', 3), ('sejumlah', 2), ('RNA', 2), ('satu', 2)], 
 'yang': [('diperoleh', 3), ('lebih', 3), ('berbeda', 2), ('sama', 2), ('tumpang', 2)]}

使用^{}的另一种解决方案：

from collections import defaultdict

d = defaultdict(list)
for (s1, v1), f1 in df.to_numpy():
    if s1 in s:
        d[s1].append((v1, f1))

d = dict(d)
print (d)
{'DNA': [('yang', 15), ('dalam', 6), ('ini', 5), ('memiliki', 4), ('unting', 4)], 
 'pada': [('DNA', 4), ('urutan', 3), ('sejumlah', 2), ('RNA', 2), ('satu', 2)], 
 'yang': [('diperoleh', 3), ('lebih', 3), ('berbeda', 2), ('sama', 2), ('tumpang', 2)]}

网友

2楼 · 编辑于 2024-05-15 12:12:46

我所做的是匹配单词

我循环遍历数据帧，获取每个元素，并将其传递给像这样的def

def match_words(actual_word, word):
    return set(actual_word.split()).intersection(word.split())

相关问题更多 >

编程相关推荐

热门问题

热门文章