我试图阅读一个页面的链接,但我得到的链接比预期的多。 我正在做的是:
http = httplib2.Http()
status, page= http.request('page address')
soup = BeautifulSoup(page,'html.parser', parse_only=SoupStrainer('a'))
For link in soup:
if link.has_attr('href'):
print(link['href'])
我查看了该页面,发现它有两个主要组件:
<div id="main">
<aside id="secondary">
我不想要的链接来自<aside id="secondary">
内部。仅从<div id="main">
获取链接的最简单方法是什么
谢谢
要选择
<a>
下的<div id="main">
链接,可以使用CSS选择器:对于仅具有
href=
属性的链接:我建议使用beautifulsoup的
find_all
操作符:假设您的网页包含父
div
内的链接,您可以执行以下操作:相关问题 更多 >
编程相关推荐