使用Python和Beautiful Soup

2024-03-28 23:03:38 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在做一个CA,我必须用漂亮的soup解析页面,我用代码做了

r = urlopen(url)    # download the page
res1 = str(r.read()) # put the content into a variable
soup = BeautifulSoup(res1,'html.parser')
for link in soup.find_all('a'):
    print(link.get('href'))

但是我必须打印出有多少不同的页面被爬网了。你知道吗

有人给我小费吗?你知道吗

非常感谢


Tags: the代码urlreadputdownloadpagelink
1条回答
网友
1楼 · 发布于 2024-03-28 23:03:38

正如@cricket\u007在评论中提到的,您当前的代码只“爬行”(即检索)一页。你知道吗

如果你需要打印你在文档中找到了多少链接,你可以这样做

print(len(soup.find_all('a')))

请注意,soup.find_all('a')是相应标签的列表,因此len提供了大量链接。你知道吗

如果你真的需要对网站进行爬网(例如,检索页面,从这个页面获取所有链接,跟踪每个链接,检索它引用的页面等等),我建议使用RoboBrowser而不是“纯”的BeautifulSoup。你知道吗

相关问题 更多 >