使用python正则表达式的单词标记化

2条回答

网友

1楼 · 编辑于 2024-05-13 05:56:03

我建议如下：

re.findall("[A-Z]{2,}(?![a-z])|[A-Z][a-z]+(?=[A-Z])|[\'\w\-]+",s)

这为您的示例提供了：

["Jeff's", 'dog', 'is', 'un-American', 'Some', 'Times', 'BUT', 'NOT', 'Always']

说明：RegExp由3个选项组成：

[A-Z]{2,}(?![a-z])匹配所有大写字母的单词
[A-Z][a-z]+(?=[A-Z])匹配带有第一个capitel字母的单词。向前看(?=[A-Z])在下一个大写字母之前停止匹配
[\'\w\-]+匹配所有其他单词，即可能包含'和-的单词。

网友

2楼 · 编辑于 2024-05-13 05:56:03

为了处理您编辑的案例，我将修改phynfo（+1）很好的答案

>>> s = """Jeff's UN-American Un-American un-American 
           SomeTimes! BUT NOTAlways This- THIS- 
           What'sItCalled someTimes"""
>>> re.findall("[A-Z\-\']{2,}(?![a-z])|[A-Z\-\'][a-z\-\']+(?=[A-Z])|[\'\w\-]+",s)
["Jeff's", 'UN-', 'American', 'Un-', 'American', 'un-American', 
 'Some', 'Times', 'BUT', 'NOT', 'Always', 'This-', 'THIS-', 
 "What's", 'It', 'Called' 'someTimes']

你必须清楚地为你想要的行为定义规则。标记化不是一个定义，您必须有类似于phynfo规则的东西。E、例如，有一条规则是'NOTAlways'应该转到'NOT'，和'Always'，并且应该保留连字符。因此'UN-American'被分裂，就像非美国人被分裂一样。可以尝试定义其他规则，但必须清楚当规则重叠时应用的规则。

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用python正则表达式的单词标记化

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >