在句子中查找字典值并输出句子，键

dict = {'housing': 'homeless', 'housing2': 'homelessness', 'housing3': 'evicted', 'housing4': 'shelter'} # dataframe with one row for each ID and sentence sentences = [] for row in text.itertuples(): for sentence in row[2].split('.'): if sentence != '': sentences.append((row[1], sentence)) sentence = pd.DataFrame(sentences, columns=['ID', 'sentence']) #find dictionary value in sentences def find_sdh(x): val = [x for k in dict.values() if k in x] if val: return val # link sentence, id, value sentence['sdh'] = sentence['sentence'].apply(find_sdh) # drop null values df = sentence.dropna(subset=['sdh'])

1条回答

网友

1楼 · 发布于 2024-05-15 01:13:19

您只需添加另一个方法以分配给第二列：

def find_keys(x):
    result = [k for k, v in dict.items() if v in x]
    if result:  # not sure you need this
        return result

sentence['keys'] = sentence['sentence'].apply(find_keys)

或者，可以使用不同的方法将(sentence, key)元组分配给新列，但这可能更难处理。我不看好这里的语法，因为我不看好你的数据结构：

def find_stuff(x):
    result = [(x, k) for k, v in dict.items() if v in x]
    if result:  # again not sure you need this
        return result

sentence['stuff'] = sentence.sentence.apply(find_stuff)

关于if result:检查，Python中的每个函数的末尾都有一个隐式的return None。如果列表理解没有给result赋值，那么result只是一个空数组[]，它不是None，但两者的计算结果都是False，而且下游代码通常不关心差异。我对.apply()的行为并不肯定，但如果你完全放弃检查并总是返回结果，你可能会有同样的结果。值得检查，因为它使代码更干净。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章