从多个网页获取数据的最佳方式（线程/事件驱动）

2 投票

1 回答

974 浏览

提问于 2025-04-16 16:40

我不想引发争论，只是想寻求建议，继续我的开发工作。

我需要写一个类似爬虫的东西，它必须能够从一系列网址中获取数据并进行解析。

我打算使用Ruby（mechanize + nokogiri）或者Python（mechanize + beautifulsoup）。

但是我需要并行处理数据，以提高效率。这对我来说是个大问题。

据我所知，Mechanize（在这两种语言中）并不是线程安全的，而且很多程序员说使用线程并不是“好做法”。另一方面，我对事件驱动编程的技术也没有什么了解，不知道如何在我的情况下使用它。

任何帮助都非常感谢。谢谢。

线程安全 ruby 数据解析事件驱动编程 mechanize 并行处理数据爬虫 nokogiri

1 个回答

我一直在使用Scrapy，效果非常好。它使用起来很简单，可以同时运行多个爬虫。输出的结果可以是json、xml等格式，或者直接存到数据库里。绝对值得一试。

回答于 2025-04-16 由 Python大师

分享举报