可选字符串在正则表达式中不匹配

regex = r"^(?P<title>.[^(]+);" \ "\s*(?P<subtitle>.+)\." \ "\s*Tel\.:\s*(?P<telephone>.+?)(\.|;)" \ "\s*(?P<url>(www\.|http://).+?\.[a-zA-Z]+)(\.|;)" \ "(\s*(?P<text>.+?)\.)?" \ "\s*coor:(\s*(?P<lat>.+?),\s*(?P<long>.+?))?$"

3条回答

网友

1楼 · 编辑于 2024-04-26 18:39:59

这是因为空字符串是正则表达式的有效匹配项，并且比较长的匹配项更可取。在

您可能想看看^{}。在

您可以完全退出正则表达式：

import re
s = "Blah. Tel.: 555 44 33 22."
m = re.search(r"\s*Tel\.:\s*(?P<telephone>.+?)\.", s)
if m is not None:
  print m.group("telephone")

网友
2楼 · 编辑于 2024-04-26 18:39:59

(anything)?与字符串开头的零字符串匹配（在Blah之前），因此它很高兴，不必费心进一步搜索。在
编辑：
如果有许多行，但其中只有一部分包含所需的字符串，请尝试以下操作：
import re rex = re.compile(r"\s*Tel\.:\s*(?P<telephone>.+?)\.") for line in lines: m = rex.search(line) if m: print m.group("telephone")

网友
3楼 · 编辑于 2024-04-26 18:39:59

您的regex在title和subtitle位匹配方面太不具体。他们正在吞噬电话部分，如果这是可选的，它将在regex的下一部分继续（并成功）。只有在它不是可选的情况下，正则表达式引擎必须回溯才能找到一个整体匹配。在

试试看

regex = r"^(?P<title>[^;]+);" \
         "\s*(?P<subtitle>[^.]+)\." \
         "(\s*Tel\.:\s*(?P<telephone>.+?)(\.|;))?" \
         "\s*(?P<url>(www\.|http://).+?\.[a-zA-Z]+)(\.|;)" \
         "(\s*(?P<text>.+?)\.)?" \
         "\s*coor:(\s*(?P<lat>.+?),\s*(?P<long>.+?))?$"

相关问题更多 >

编程相关推荐

热门问题

热门文章