Regexp、Python和doc注释<!文本>

2024-05-23 21:34:48 发布

您现在位置:Python中文网/ 问答频道 /正文

我用Python2.7编程,我用beautifulsoup4从一系列文档的标签中提取信息。但是,该文档还包含以下字符串:

<!-- PJG ITAG l=90 g=1 f=4 -->

我想摆脱它们,但是我不是regexp方面的专家。有人能帮忙吗?你知道吗


Tags: 字符串文档信息编程标签专家itagregexp
1条回答
网友
1楼 · 发布于 2024-05-23 21:34:48

从在BeautifulSoup中加载HTML开始:

from bs4 import BeautifulSoup, Comment
soup = BeautifulSoup(the_html)

然后,删除所有注释:

comments = soup.find_all(text = lambda text:isinstance(text, Comment))
for comment in comments:
    comment.extract()

相关问题 更多 >