命名实体识别新闻数据集(文本)
以下是一个示例:
<LOC Qatar> and <LOC Japan>, who met in the <EVENT <S Asian> <E Cup>> final in <DATE February>, are in third place in their groups.
我试图提取介于<>;,嵌套标签和输出中的问题是:
['<LOC Qatar>',
'<LOC Japan>',
'<EVENT <S Asian>',
'<E Cup>',
'<DATE February>']
这是错误的,因为“亚洲事件”,“E杯”应该是一个字符串而不是两个
我试过regEx,但效果不好
import re
s = """<LOC Qatar> and <LOC Japan>,
who met in the <EVENT <S Asian> <E Cup>> final in <DATE February>, are in third place in their groups."""
re.findall('\<.*?\>',s)
实际结果:
['<LOC Qatar>',
'<LOC Japan>',
'<EVENT <S Asian>',
'<E Cup>',
'<DATE February>']
预期结果:
['<LOC Qatar>',
'<LOC Japan>',
'<EVENT <S Asian> <E Cup>>',
'<DATE February>']
您希望应用注释中提到的递归模式。
regex
模块为您提供机会(而不是re
模块)代码如下:
如果您真的希望单词被
<>
包围,您可以添加它们:相关问题 更多 >
编程相关推荐