需要关于如何加快网页报废的建议吗

2024-04-18 22:20:26 发布

您现在位置:Python中文网/ 问答频道 /正文

我还是个新手。我试图从网页中提取数据,但我实现的这个方法似乎有点慢。我用时间模块来缩小滞后的原因。在

requests.get(url)

占用了大部分时间(1-5秒)

^{pr2}$

持续约0.15秒

请求总是这么慢吗?问题是雅虎的费率限制了来自他们服务器的请求吗?现在要花2-5秒左右的时间才能从yahoo.com/finance请求是主要问题,有什么想法吗?在


Tags: 模块数据方法服务器comurl网页get
2条回答

再加上梅格迪普说的话。。在

如果要按顺序拉取多个URL,则应尝试将代码重写为异步。刮取一个页面所需的时间不会改变,但是异步地您可以一次刮取多个页面。(您可以使用Python Twisted或Tornado框架来实现这一点..或者可以用节点.js)在

问题不在于需求。如果速度慢,可能是网络连接有问题。这也可能是雅虎限制了你正确指出的请求。每个网站都有机器人.txt该文件详细说明了他们关于网络爬虫和自动访问它们的策略。 不管怎么说都不会花这么长时间,但我会把它归结为网速问题。尝试从浏览器访问URL并检查加载所需的时间。在

GET请求是指当你想从网站上“获取”一个网页时发送给他们的内容。当您在浏览器中输入URL并按enter时,将使用相同的GET。因此,除非请求获取页面所需的时间与浏览器获取页面所需的时间之间存在明显差异,否则互联网连接速度本身就是个问题。在

相关问题 更多 >