Python正则表达式在创建组和后跟数字的某些字符时挂起问题的回答

Python正则表达式在创建组和后跟数字的某些字符时挂起

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

灾难性回溯问题的一个有效解决方案是，通过对捕获组使用正向前瞻来模拟<a href="https://www.rexegg.com/regex-disambiguation.html#atomic" rel="nofollow noreferrer">atomic group</a>（Python的<code>re</code>模块不支持）： <pre><code>(?=((?:[a-z]+\.?\s*)+))\1§{0,2}\s*\d+ </code></pre> 设置了多行和大小写无关标志。这避免了灾难性的回溯，因为前瞻不会放弃角色 <a href="https://regex101.com/r/icHjRR/2/" rel="nofollow noreferrer">Demo</a> 更简洁的方法是在匹配一个或多个字母时使用<a href="https://www.rexegg.com/regex-quantifiers.html#possessive" rel="nofollow noreferrer">possessive quantifier</a>。可以使用正则表达式 <pre><code>(?:[a-z]++\.?\s*)+§{0,2}\s*\d+ </code></pre> 设置了多行和大小写无关标志。这里所有格修饰语由<code>++</code>表示 <a href="https://regex101.com/r/icHjRR/1/" rel="nofollow noreferrer">Demo</a> 不幸的是，Python的<code>re</code>模块不支持所有格修饰符，但它的替代<a href="https://pypi.org/project/regex/" rel="nofollow noreferrer">PyPi module</a>支持所有格修饰符 假设我们使用了regex<code>(?:[a-z]+\.?\s*)+§{0,2}\s*\d+</code>，它没有所有格修饰语 对于字符串 <pre><code>Within the Context. of Article 1A(2) </code></pre> <code>[a-z]+</code>匹配<code>Within the Context</code>，然后<code>\.?\s*</code>匹配<code>.</code>。然后，正则表达式引擎继续尝试查找整个正则表达式的匹配项。如果失败，它将回溯考虑替代方案，并可能返回到{{CD5}}的匹配，此时它将<eEM>返回“EEM>字符{{CD10}}（使匹配^ {CD11}}），在R{CD10}}之前重置ReGEX引擎的内部指针，并再次继续前进。 中的所有格修饰符<code>++</code>防止正则表达式引擎放弃其原始匹配<code>Within the Context</code>中的任何字符，从而避免灾难性的回溯问题。即使在灾难性回溯不是问题的地方，所有格修饰语也可以大大提高效率

Python正则表达式在创建组和后跟数字的某些字符时挂起

1 个回答

相关Python问题