使用Regex Tokeniz标记

2024-05-15 03:29:04 发布

您现在位置:Python中文网/ 问答频道 /正文

我想用regex标记器标记下面的句子

MOST INTERESTED IN NUT BUTTERS

当我把我的标记器定义为

^{pr2}$

我得到的输出为

['MOST', 'INTERESTED', 'IN', 'NUT', 'BUTTERS']

我想要的输出是

['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS']

我希望坚果黄油是唯一的元素 我不知道要使用什么正则表达式或\w+


Tags: in标记元素most定义坚果regex句子
2条回答

如果要使用正则表达式解决方案,则必须列出一个包含必须作为一个提取的空格的单词列表,然后按如下方式构建正则表达式:

word space1|word space2|word space3|...|word spaceN|\w+

对于您的示例,它变成:

^{pr2}$

请改为尝试split()。在

>>> str = 'MOST INTERESTED IN NUT BUTTERS'
>>> str.split(' ', 3) # 3 tells the number of splits it should do.
['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS']

相关问题 更多 >

    热门问题