我正在做一个CA,我必须用漂亮的soup解析页面,我用代码做了
r = urlopen(url) # download the page
res1 = str(r.read()) # put the content into a variable
soup = BeautifulSoup(res1,'html.parser')
for link in soup.find_all('a'):
print(link.get('href'))
但是我必须打印出有多少不同的页面被爬网了。你知道吗
有人给我小费吗?你知道吗
非常感谢
Tags:
正如@cricket\u007在评论中提到的,您当前的代码只“爬行”(即检索)一页。你知道吗
如果你需要打印你在文档中找到了多少链接,你可以这样做
请注意,
soup.find_all('a')
是相应标签的列表,因此len
提供了大量链接。你知道吗如果你真的需要对网站进行爬网(例如,检索页面,从这个页面获取所有链接,跟踪每个链接,检索它引用的页面等等),我建议使用RoboBrowser而不是“纯”的BeautifulSoup。你知道吗
相关问题 更多 >
编程相关推荐