按数据帧中的列表筛选行

Date Head Text 03/01/2020 Estate in vacanza marea: cosa fare in caso di ... 03/01/2020 Cosa mangiare in estate il limone è una spezia molto usata durante il periodo estivo 03/01/2020 NaN tutti pazzi per l'estate: “pronto, ma se apro le finestre per arieggiare... 03/01/2020 Harry torna in UK il principe harry torna a buckingham palace in estate... 03/01/2020 Consigli per l'estate Estate come proteggersi -

Date Head Text 03/01/2020 Cosa mangiare in estate il limone è una spezia molto usata durante il periodo estivo 03/01/2020 Harry torna in UK il principe harry torna a buckingham palace in estate...

1条回答

网友

1楼 · 发布于 2024-06-06 23:11:18

我希望我能正确理解这个案例：我们有一个“强制性”词汇列表（如果它们不存在，整行就不相关），还有一个“可取”词汇列表。也许您可以进行内部联接以查找同时包含必填项和所需项的行：

mandatory = df[(df.Head + df.Text).str.contains('|'.join(mandatory_words))]
desirable = df[(df.Head + df.Text).str.contains('|'.join(desirable_words))]
mandatory_and_desirable = pd.merge(mandatory,desirable, how='inner')

总而言之：

mandatory_and_desirable = pd.merge(
    df[(df.Head + df.Text).str.contains('|'.join(mandatory_words))],
    df[(df.Head + df.Text).str.contains('|'.join(desirable_words))]
    how='inner'
    )

请注意，这是区分大小写的

如果您还需要只分析带有必填词的行，那么第一种方法会更有用。第二种方法可能不太有用，因为强制性和“可取”是等效的（如果两者都需要存在的话）

相关问题更多 >

编程相关推荐

热门问题

热门文章