在Python中转义regex unicode字符串

1条回答

网友

1楼 · 发布于 2024-05-16 20:03:27

我的理解是：您想要创建一个正则表达式，它可以将给定单词与任何撇号匹配：

可以在组中定义匹配任何撇号的正则表达式：

APOSTROPHES_REGEX = r'[\'\u2019\u02bc]'

例如，你有这个（乌克兰语？）包含单引号的单词：

^{pr2}$

编辑：如果您的单词包含另一种撇号，您可以将其规范化，如下所示：

word = re.sub(APOSTROPHES_REGEX , r"\'", word, flags=re.UNICODE)

要创建正则表达式，需要对这个字符串进行转义（因为在某些上下文中，它可能包含标点符号等特殊字符）。转义时，单引号“'”将替换为转义单引号，如：r“\”。在

您可以用撇号正则表达式替换r“\”：

import re
word_regex = re.escape(word)
word_regex = word_regex.replace(r'\'', APOSTROPHES_REGEX)

然后可以使用新的正则表达式将同一个单词与任何撇号匹配：

assert re.match(word_regex, "п'ять")  # '
assert re.match(word_regex, "п’ять")  # \u2019
assert re.match(word_regex, "пʼять")  # \u02bc

注意：不要忘记使用re.UNICODE标志，它将帮助您处理某些RegEx字符类，如r“\w”。在