带有线程supp的python网络爬虫

2024-04-28 23:59:30 发布

您现在位置:Python中文网/ 问答频道 /正文

这些天我做了一些网络爬虫脚本,但问题之一是我的互联网很慢。 所以我想是否有可能通过使用mechanize或urllib实现多线程的webcrawler。 如果任何人有经验,分享信息非常感谢。 我在谷歌上找过,但没找到多少有用的信息。 提前谢谢


Tags: 网络脚本信息互联网经验urllib爬虫mechanize
3条回答

this堆栈溢出线程上有一个很好的简单示例。

同时向多个网站发出多个请求肯定会提高结果,因为在发送新请求之前,您不必等待结果到达。

然而,线程只是实现这一点的方法之一(我可能会补充说,这是一个糟糕的方法)。不要使用线程。在发送另一个请求之前不要等待响应!不需要线程来实现这一点。

一个好主意是使用scrapy。它是一个快速的高级屏幕抓取和网页抓取框架,用于抓取网站和从网页中提取结构化数据。它是用python编写的,可以同时建立多个并发连接来获取数据(不需要使用线程)。真的很快。你也可以研究一下它是如何实现的。

相关问题 更多 >