假设我有以下html代码:
<table id="test_table">
<td>
<a href="#">#</a>
<a href="#">#</a>
<a href="#">#</a>
<a href="#">#</a>
<a href="#">#</a>
<a href="#">#</a>
<a href="#">#</a>
<a href="#">#</a>
</td>
</table>
<table id="test_table2">
<td>
<a href="#">#33</a>
<a href="#">#33</a>
<a href="#">#33</a>
<a href="#">#33</a>
<a href="#">#33</a>
<a href="#">#33</a>
<a href="#">#33</a>
<a href="#">#33</a>
</td>
</table>
我只想在#test#u表中匹配href并迭代它们?我试过这样的方法:
<table id="test_table">\s*<td>(\s*<a href="(?P<url>.*?)">(?P<anchor>.*?)</a>\n)*
但这只符合第一个要素,我被困在这几个小时,我不能得到它的权利,谢谢你的帮助。你知道吗
另外请看一下PyQuery,我喜欢jQuery提供的熟悉性:
不要使用regex来解析HTML,使用LXML来解析。你知道吗
使用iPython的示例(test是您的文件)
使用Xpath可以使事情变得更简单,减少头痛和咖啡量;)
对于HTML,请使用正确的工具。改用HTML解析器,如BeautifulSoup:
不要使用正则表达式,用这样的表达式匹配HTML会变得太复杂,太快。别那么做。你知道吗
相关问题 更多 >
编程相关推荐