我有一个文本文档,我想根据上下文从中提取特定的名称。例如,文档中句子的一部分类似于-“…采访受害者#1(!阿里尔·约翰逊)。我只想打印括号之间的名字,但也希望它被搜索使用“受害者#1”的上下文。你知道吗
我尝试了以下代码。doc['sentence']是dataframe列,其中文档的所有语句都存储为行。你知道吗
SearchStr = 'VICTIM \#1 (.*?\))'
victim = re.search(SearchStr, str(doc['sentence']))
if victim:
print(victim.groups())
print(victim)
应该是印“阿里尔·B·约翰逊”
退货
'受害者#1(!阿里尔·约翰逊
如果你愿意的话,你可以把它分成一本受害者和名字的字典?如果有帮助的话?你知道吗
这可以适用于任何受害者#或姓名
要将其应用于df中的每一行,请将其用作函数,然后将其应用于列:
这会给你一个包含所有受害者姓名的口述
相关问题 更多 >
编程相关推荐