Python HTML 抓取
其实我并不是在做网页抓取,我只是想在一个网页中找到那些类名有特定值的链接地址。比如说:
<a class="myClass" href="/url/7df028f508c4685ddf65987a0bd6f22e">
我想获取这些链接的href值。有没有什么好办法?也许可以用正则表达式?能不能给我一些示例代码?我觉得像BeautifulSoup这样的网页抓取库,光为了这个功能可能有点太复杂了……
非常感谢!
7 个回答
2
用正则表达式来处理HTML不是个好主意。因为HTML并不是一种规则很简单的语言。你可以试试Beautiful Soup这个工具。
9
哎呀,不要用正则表达式来解析HTML!
幸运的是,在Python中我们有BeautifulSoup或者lxml来帮我们完成这个任务。
16
使用正则表达式通常不是个好主意,建议你试试BeautifulSoup这个工具。
这里有个简单的例子:
html = #get html
soup = BeautifulSoup(html)
links = soup.findAll('a', attrs={'class': 'myclass'})
for link in links:
#process link