如何在收缩标记化中反转正则表达式？

2024-04-20 12:57:38 发布

男 | 程序猿一只，喜欢编程写python代码。

在nlp标记化中，收缩有时被拆分为：

>>> import re
>>> s = 'he cannot fly'
>>> pattern, substitution  = r"(?i)\b(can)(not)\b", r" \1 \2 "
>>> re.sub(pattern, substitution, s)
'he  can not  fly'

为了扭转这种局面（即脱毒），我尝试了以下方法：

>>> rev_pattern, rev_substitution  = r"(?i)\b(can)\s(not)\b", r" \1\2 "
>>> re.sub(rev_pattern, rev_substitution, s)
'he cannot fly'

问题是r"(?i)\b(can)\s(not)\b"和r" \1\2 "是原始模式替代的反面吗？有没有其他方法可以扭转这种局面？你知道吗

在本例中，我手动将\s编码到模式中。主要的问题是，有一堆regex是为标记化而手动编码的，我必须为它们手动添加\s：

CONTRACTIONS2 = [re.compile(r"(?i)\b(can)(not)\b"),
                 re.compile(r"(?i)\b(d)('ye)\b"),
                 re.compile(r"(?i)\b(gim)(me)\b"),
                 re.compile(r"(?i)\b(gon)(na)\b"),
                 re.compile(r"(?i)\b(got)(ta)\b"),
                 re.compile(r"(?i)\b(lem)(me)\b"),
                 re.compile(r"(?i)\b(mor)('n)\b"),
                 re.compile(r"(?i)\b(wan)(na) ")]
CONTRACTIONS3 = [re.compile(r"(?i) ('t)(is)\b"),
                 re.compile(r"(?i) ('t)(was)\b")]
CONTRACTIONS4 = [re.compile(r"(?i)\b(whad)(dd)(ya)\b"),
                 re.compile(r"(?i)\b(wha)(t)(cha)\b")]

有没有一种方法可以自动遍历regex列表并在组之间添加\s，而不必硬编码detokenzation regex

我知道原始的标记化替换是->；`r'\1\2'，所以要撤消它，我必须将它改回r'\1\2'。你知道吗

Tags：方法标记 re 编码 not rev 手动 can

1条回答

网友

1楼 · 发布于 2024-04-20 12:57:38

你可以在中间加上一个注释(?#...)。然后做pattern.replace

例如：

PATTERNS = [r"(?i)\b(can)(?#A)(not)\b",
            r"(?i)\b(d)(?#A)('ye)\b",
            r"(?i)\b(gim)(?#A)(me)\b",
            r"(?i)\b(gon)(?#A)(na)\b"]
CONTRACTIONS = [re.compile(x) for x in PATTERNS]
REVERSORS    = [re.compile(x.replace('(?#A)', '\s')) for x in PATTERNS]

如何在收缩标记化中反转正则表达式？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在收缩标记化中反转正则表达式？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >