确保页面在Python中已正确下载

2024-04-19 12:28:08 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在用Python中的Mechanize和BeautifulSoup(BS)编写一个基本的屏幕抓取脚本。但是,我遇到的问题是,由于某些原因,请求的页面每次都不能正确下载。我总结这一点是因为当使用BS搜索下载的页面以查找当前标记时,我得到了一个错误。如果我再下载一次,它就可以工作了。你知道吗

因此,我想编写一个小函数,检查页面是否正确下载,并在必要时重新下载(我也可以通过找出问题所在来解决问题,但这对我来说可能太高级了)。我的问题是我该如何检查页面是否正确下载?你知道吗


Tags: 函数标记脚本bs屏幕错误原因页面
3条回答

最通用的解决方案是检查</html>结束标记是否存在。这将允许您检测页面的截断。你知道吗

你必须更清楚地描述你的失败模式。你知道吗

你可以检查一下你想要的标签,如果失败了,重复下载。你知道吗

page = BeautifulSoup(page)

while page.body = None:
    #redownload the page
    page = BeautifulSoup(page)
#now you can use the data

我想你可以简单地搜索html结束标记,如果这个标记在-这是一个有效的页面。你知道吗

相关问题 更多 >