组合多个regex模式1用于匹配，rest用于排除

2条回答

网友

1楼 · 编辑于 2024-05-16 08:22:32

您可以考虑只在模式6上拆分，然后使用lookaround排除模式3和模式5，因为尽管实施了模式6（模式3在句点后使用空格+大写字母，模式5用于忽略一行中的句点），因此只有这些模式可以匹配。在

这是一个正面展望的模式6：

\.(?=\s[A-Z])

要排除模式3，请添加负lookbehind：

^{pr2}$

我使用了单独的负lookbehind，因为python的lookbehind不能是可变宽度的。Mr、Dr和{}的长度都是2个字符，但是Mrs3个字符。在

您可以将最后一个regex缩短为：

(?<![MDJ]r)(?<!Mrs)\.(?=\s[A-Z])

现在要排除patter 5，另一个负面观察：

(?<![MDJ]r)(?<!Mrs)(?<!\.)\.(?=\s[A-Z])

在这之后，它就不会在连续的时段上分开了。在

现在已经有了句点，可以很容易地使用字符类在!和?上拆分：

(?<![MDJ]r)(?<!Mrs)(?<!\.)[.?!](?=\s[A-Z])

顺便说一句，^在regex中并不完全用于否定。[^ ... ]当你不关心字符顺序时，它被用来否定。例如，[^aeiou]将匹配除字母aeiou以外的任何一个字符。而且，regex中的大多数元字符在字符类中都失去了意义（这就是方括号中所包含的内容）。例如，()成为[]之间的文字字符，不能再用于分组。在

^在字符类之外用来表示行的开头。在

网友

2楼 · 编辑于 2024-05-16 08:22:32

据我所知，没有排除模式^是用来从字符集中排除字符的，就像在[^ab]外它意味着字符串的开始，这不是您想要的

你得做两步比赛

pattern1 = r'\. [a-z]'  
pattern2 = r'\.\d' 
pattern2 = r'(Mr|Mrs|Dr|Jr)\. [A-Z]' 
pattern4 = r'[a-zA-Z]\.[a-zA-Z]' 
pattern5 = r'\.(\.|,)'

pattern6 = r'\.[\s][A-Z]'

if re.match(pattern6):
    if not re.match("("+pattern1+"|"+pattern2+"|"+pattern3+"|"+pattern4+"|"+pattern5+")"):
          do_whatever_you_want()

相关问题更多 >

编程相关推荐

热门问题

热门文章