从多个网页获取数据的最佳方式(线程/事件驱动)

2 投票
1 回答
974 浏览
提问于 2025-04-16 16:40

我不想引发争论,只是想寻求建议,继续我的开发工作。

我需要写一个类似爬虫的东西,它必须能够从一系列网址中获取数据并进行解析。

我打算使用Rubymechanize + nokogiri)或者Pythonmechanize + beautifulsoup)。

但是我需要并行处理数据,以提高效率。这对我来说是个大问题。

据我所知,Mechanize(在这两种语言中)并不是线程安全的,而且很多程序员说使用线程并不是“好做法”。另一方面,我对事件驱动编程的技术也没有什么了解,不知道如何在我的情况下使用它。

任何帮助都非常感谢。谢谢。

1 个回答

2

我一直在使用Scrapy,效果非常好。它使用起来很简单,可以同时运行多个爬虫。输出的结果可以是json、xml等格式,或者直接存到数据库里。绝对值得一试。

撰写回答