使用beautifulsoup删除网页的某些部分

http = httplib2.Http() status, page= http.request('page address') soup = BeautifulSoup(page,'html.parser', parse_only=SoupStrainer('a')) For link in soup: if link.has_attr('href'): print(link['href'])

2条回答

网友

1楼 · 编辑于 2024-06-13 17:05:06

要选择<a>下的<div id="main">链接，可以使用CSS选择器：

for a in soup.select('div#main a'):
    print(a)

对于仅具有href=属性的链接：

for a in soup.select('div#main a[href]'):
    print(a['href'])

网友

2楼 · 编辑于 2024-06-13 17:05:06

我建议使用beautifulsoup的find_all操作符：

my_links = soup.find_all("a", {"id":"main", "href":True})
my_links = [x["href"] for x in my_links]

假设您的网页包含父div内的链接，您可以执行以下操作：

my_divs = soup.find_all("div", {"id":"main"})
my_links = [x.find_all("a", {"href":True}, recursive=False) for x in my_divs]
# flatten
my_links = [x for y in my_links for x in y]
# extract hrefs
my_links = [x["href"] for x in my_links]

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用beautifulsoup删除网页的某些部分

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >