regex替换列表中的html href和u标记（python）

网友

1楼 · 编辑于 2024-05-13 08:28:17

您也可以使用HTML解析器处理字符串，例如^{}，它的replace_with()-查找字符串中的所有a元素并用链接文本替换它们：

>>> from bs4 import BeautifulSoup
>>> l = [
...     """My website is <a href="WEBSITE1" target='_blank'><u>WEBSITE1</u></a>""",
...     """The link is <a href="LINK1" target='_blank'><u>LINK1</u></a>"""
... ]
>>> for item in l:
...     soup = BeautifulSoup(item, "html.parser")
...     for a in soup("a"):
...        a.replace_with(a.text)
...     print(str(soup))
... 
My website is WEBSITE1
The link is LINK1

或者，正如@user3100115在评论中指出的，只需获取“soup”对象的文本也可以处理示例数据：

^{pr2}$

网友

2楼 · 编辑于 2024-05-13 08:28:17

如果我必须使用正则表达式，我会使用类似

<a href.*?><u>(.*?)<\/u><\/a>

然后替换为列表理解

^{pr2}$

但是考虑使用beautifulsoup或其他html解析器，正如其他答案中所指出的那样，这将为您提供一个更通用的解决方案

正则表达式解释

<a href.*?>匹配a href标记，非贪心，直到第一个右括号
<u>匹配u标记
(.*?)匹配要保留的字符串
<\/u><\/a>匹配结束标记

网友

3楼 · 编辑于 2024-05-13 08:28:17

这个正则表达式似乎有效

([^<]+)<a\s+href\s*=\s*"([^"]+).*

Regex Demo

Python代码

^{pr2}$

Ideone Demo

正则表达式解释

相关问题更多 >

编程相关推荐

热门问题

热门文章

regex替换列表中的html href和u标记（python）

正则表达式解释

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >