正则表达式量词

<a href="https://www.facebook.com/pages/Dr-Morris-Westfried-Dermatologist/176363502456825?sk=page_map" target="_self">7508 15th Avenue, Brooklyn, New York 11228</a>(718) 837-9004</div></div></div><a class="title" href="https://www.facebook.com/pages/Dr-Morris-Westfried-Dermatologist/176363502456825?id=176363502456825&sk=info" aria-label="About Dr. Morris Westfried - Dermatologist">

3条回答

网友

1楼 · 编辑于 2024-06-17 11:09:18

为什么你的模式不起作用：

您的模式不起作用，因为regex引擎在字符串中从左到右尝试您的模式。在

当regex引擎遇到字符串中的第一个facebook.com\/时，并且由于在之后使用了.*?，regex引擎将向（可能的）匹配结果中添加所有字符（包括"或{}或空格），直到找到sk=info（因为{}可以匹配除换行符之外的任何字符）。在

这就是为什么fejese建议用[^"]替换点，或者alitemind建议用[^>]替换它，使模式在字符串（第一个）的这个位置失败。在

如果要处理html，使用html解析器是最简单的方法。但是，对于ponctual match或search/replace，请注意，如果html解析器提供了安全性和简单性，那么就性能而言，它是有代价的，因为您需要为单个任务加载文档的整个树。在

网友

2楼 · 编辑于 2024-06-17 11:09:18

这是有效的：）

facebook\.com\/[^>]*?sk=info

Regular expression visualization

Debuggex Demo

只有.*时，它首先找到facebook.com，然后继续到sk=info。因为有另一个facebook.com之间，所以要重叠它们。在

你不想要的唯一的东西是一个>（或者<，在其他字符中），因此将任何字符改为除了>之外的任何内容都可以找到与sk=info最接近的facebook.com最接近sk=info。在

是的，对HTML使用regex应该只在基本任务中使用。否则，请使用解析器。在

网友
3楼 · 编辑于 2024-06-17 11:09:18

尽管我非常喜欢regex，但这是一个html解析任务：

>>> from bs4 import BeautifulSoup
>>> html = .... # that whole text in the question
>>> soup = BeautifulSoup(html)
>>> pred = lambda tag: tag.attrs['href'].endswith('sk=info')
>>> [tag.attrs['href'] for tag in filter(pred, soup.find_all('a'))]
['https://www.facebook.com/pages/Dr-Morris-Westfried-Dermatologist/176363502456825?id=176363502456825&sk=info']

相关问题更多 >

编程相关推荐

热门问题

热门文章