使用regex去除HTML符号

2024-04-23 14:17:52 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个正则表达式,它可以在给定关键字的HTML代码中成功地搜索文本,但是我无法摆脱符号<>

这是我的正则表达式:

[><][^><=]*climate[> - <][^<|//]*

结果是:

>Formation of coastal sea ice in North Pacific drives ocean circulation and climate<

有什么建议吗?你知道吗


Tags: of代码in文本html符号关键字ice
2条回答

添加“向前看”和“向后看”,而不是匹配它们:

(?<=[><])[^><=]*climate(?=[> - <])[^<|/]*
^^^^^^^^^              ^^^^^^^^^^^

DEMO

只要使用[^<>]*climate作为regex,就可以了。 还是我误解了你的问题?你知道吗

测试和构建regex的好帮手:http://regexr.com/

相关问题 更多 >