请考虑以下几点:
<div id=hotlinklist>
<a href="foo1.com">Foo1</a>
<div id=hotlink>
<a href="/">Home</a>
</div>
<div id=hotlink>
<a href="/extract">Extract</a>
</div>
<div id=hotlink>
<a href="/sitemap">Sitemap</a>
</div>
</div>
在python中,如何使用regex取出站点地图行?
<a href="/sitemap">Sitemap</a>
以下内容可用于拉出锚定标记。
'/<a(.*?)a>/i'
但是,有多个锚定标记。还有多个热链接,所以我们也不能真正使用它们?
用正则表达式解析HTML是个坏主意!
想想下面这段html
这样的例子还有很多。正则表达式对很多事情都有好处,但对解析HTML却没有好处。
您应该考虑使用Beautiful Souppython HTML解析器。
无论如何,使用regex的特别解决方案是
输出:
为了提取标语的内容:
。。。我会用:
不要使用正则表达式。使用HTML解析器BeautfulSoup。
相关问题 更多 >
编程相关推荐