具有特定字符数的字符串的正则表达式

网友

1楼 · 编辑于 2024-05-14 06:10:33

我在正则表达式方面比其他人慢很多。您确实指出要检查特定的斜杠数。这似乎可以做到。你知道吗

>>> import re
>>> link = '/foo/bar/foo/bar/foo/bar/foo/bar/'
>>> n=5
>>> re.match(r'(?:/[^/]+){%s}/'%(n-1), link)
<_sre.SRE_Match object; span=(0, 17), match='/foo/bar/foo/bar/'>
>>> n=6
>>> re.match(r'(?:/[^/]+){%s}/'%(n-1), link)
<_sre.SRE_Match object; span=(0, 21), match='/foo/bar/foo/bar/foo/'>

网友

2楼 · 编辑于 2024-05-14 06:10:33

您可以使用此正则表达式匹配由/分隔的任意数量的子目录：

^(?:/[^/]+)*[^/]+/?$

^-开始
(?:/[^/]+)*匹配0个或多个/，后跟一个或多个non-/字符串
[^/]+匹配路径的最后一个组件
/?$最后匹配选项/

网友

3楼 · 编辑于 2024-05-14 06:10:33

要在html正文中获取URL，最好使用^{}：

from scrapy.linkextractors import LinkExtractor
...
le =  LinkExtractor(allow='^/(?:[^/]+/){2}[^/]+/$') # for links with 2 slashes
all_links = le.extract_links(response) # all links matching the `allow` regex.
...

您还可以在LinkExtractor中保留including规则，以实际匹配更好的链接。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章

具有特定字符数的字符串的正则表达式

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >