从多个网页获取数据的最佳方式(线程/事件驱动)
我不想引发争论,只是想寻求建议,继续我的开发工作。
我需要写一个类似爬虫的东西,它必须能够从一系列网址中获取数据并进行解析。
我打算使用Ruby(mechanize + nokogiri)或者Python(mechanize + beautifulsoup)。
但是我需要并行处理数据,以提高效率。这对我来说是个大问题。
据我所知,Mechanize(在这两种语言中)并不是线程安全的,而且很多程序员说使用线程并不是“好做法”。另一方面,我对事件驱动编程的技术也没有什么了解,不知道如何在我的情况下使用它。
任何帮助都非常感谢。谢谢。