我的数据集包含一个包含大量文本的列。该列中的每一行都包含多个句子
我想在包含“牙医”一词的文本中搜索(子)句子,并删除所有其他句子。然后保存正确的文本
当一行包含以下文字时:“我的牙医很棒。但是助手很糟糕。我只是喜欢牙医。”
结果应该是:“我的牙医很棒,我就是喜欢这个牙医。”
这是到目前为止我的脚本,df是我的数据集:
sentence= df['columnwithtext']
for subsentence in sentence.split("."):
if "dentist" in subsentence:
print(subsentence)
然而,当我运行这个脚本时,我什么也得不到,甚至连一个错误都没有……缺少什么
然后我尝试了这个脚本:
df_dentist=df[df['columnwithtext'].str.contains("dentist")]
df_dentist
但是我得到了一整行的句子,其中有“牙医”这个词,还有我不需要的句子
我做错了什么?提前谢谢
也许这就是你要找的(findall with join)
这将提供以下输出:
相关问题 更多 >
编程相关推荐