解析html pag的regexp python

2024-06-16 08:58:17 发布

您现在位置:Python中文网/ 问答频道 /正文

再见。 regexp没有什么问题。在

我有一个看起来像

rexp2 = re.findall(r'<p>(.*?)</p>', data)

我要把所有的东西都拿进去

^{pr2}$

但我的代码不起作用:( 我做错什么了?在


Tags: 代码redataregexpfindallpr2rexp2
3条回答

法定警告:使用正则表达式解析(X)HTML是Bad Idea。在

幸运的是有一个更好的方法。要开始,首先安装^{}模块。接下来,阅读documentation。第三,密码!在

这里有一种方法可以完成您正在尝试的操作:

from BeautifulSoup import BeautifulSoup
html = """<div id="header">
<h1></h1>
<p>
localhost OpenWrt Backfire<br />
Load: 0.00 0.00 0.00<br />
Hostname: localhost
</p>
</div>"""
soup = BeautifulSoup(html)
for each in soup.findAll(name = 'p'):
    print each

点不匹配输入,使用雷多尔在

re.findall(r'<p>(.*?)</p>', data, re.DOTALL)

我不建议用这种方式使用正则表达式。尝试用漂亮的Soup解析HTML,然后遍历DOM树。在

相关问题 更多 >