提取整词

网友

1楼 · 编辑于 2024-06-01 02:44:11

如果将自己限制为ASCII字母，则使用（与re.I选项集一起使用）

\b[a-z]+\b

\b是一个单词边界锚，只在字母数字“单词”的开头和结尾匹配。所以\b[a-z]+\b匹配pie，而不是pie21或21pie。

要同时允许使用其他非ASCII字母，可以使用以下内容：

\b[^\W\d_]+\b

它还允许重音字符等。您可能需要设置re.UNICODE选项，特别是在使用Python 2时，以便\w速记与非ASCII字母匹配。

[^\W\d_]作为否定字符类，除了数字和下划线之外，允许任何字母数字字符。

网友

2楼 · 编辑于 2024-06-01 02:44:11

怎么办：

import re
yourString="pie 42 http://foo.com GIHQ4NWL0S5SCGBDD40ZXE5IDP13TYNEA  pie42"
filter (lambda x:re.match("^[a-zA-Z]+$",x),[x for x in set(re.split("[\s:/,.:]",yourString))])

注意：

split将字符串分解为潜在的候选项=>；返回“潜在单词”列表
set makes unicity filtering=>；转换set中的列表，从而删除多次出现的条目。此步骤不是必需的。
filter减少候选者的数量：获取一个列表，对每个元素应用一个测试函数，并返回测试后元素的列表。在我们的例子中，测试函数是“匿名的”
lambda：匿名函数，获取一个项目并检查它是否是一个单词（仅限大写或小写字母）

编辑：添加了一些解释

网友

3楼 · 编辑于 2024-06-01 02:44:11

你熟悉word boundaries?（\b）吗。您可以使用序列周围的\b来提取单词，并在以下范围内匹配字母表：

\b([a-zA-Z]+)\b

例如，这将获取整个单词，但在连字符、句点、分号等标记处停止

您可以在python manual上的\b序列和其他序列

编辑此外，如果要查找匹配后或匹配前的某个数字，则可以使用负数向前/向后：

(?!\d)   # negative look-ahead for numbers
(?<!\d)  # negative look-behind for numbers

相关问题更多 >

编程相关推荐

热门问题

热门文章

提取整词

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >