带有线程supp的python网络爬虫 - 问答 - Python中文网

带有线程supp的python网络爬虫

2024-05-14 08:19:30 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

这些天我做了一些网络爬虫脚本，但问题之一是我的互联网很慢。所以我想是否有可能通过使用mechanize或urllib实现多线程的webcrawler。如果任何人有经验，分享信息非常感谢。我在谷歌上找过，但没找到多少有用的信息。提前谢谢

Tags：网络脚本信息互联网经验 urllib 爬虫 mechanize

3条回答

网友

1楼 · 编辑于 2024-05-14 08:19:30

Practical threaded programming with Python值得一读。

网友

2楼 · 编辑于 2024-05-14 08:19:30

在this堆栈溢出线程上有一个很好的简单示例。

网友

3楼 · 编辑于 2024-05-14 08:19:30

同时向多个网站发出多个请求肯定会提高结果，因为在发送新请求之前，您不必等待结果到达。

然而，线程只是实现这一点的方法之一（我可能会补充说，这是一个糟糕的方法）。不要使用线程。在发送另一个请求之前不要等待响应！不需要线程来实现这一点。

一个好主意是使用scrapy。它是一个快速的高级屏幕抓取和网页抓取框架，用于抓取网站和从网页中提取结构化数据。它是用python编写的，可以同时建立多个并发连接来获取数据（不需要使用线程）。真的很快。你也可以研究一下它是如何实现的。

相关问题更多 >

编程相关推荐

热门问题

热门文章