选择用于处理纯JavaScript网站的Python网络爬虫框架
我是一名专注于网页抓取的Python程序员,这个问题我不得不问,因为我找不到相关的信息。
我想知道有哪些流行且文档齐全的框架可以用来抓取纯JavaScript网站?目前我知道Mechanize和Beautiful Soup,但它们无法处理JavaScript,所以我在寻找其他的选择。我希望能找到一个像Mechanize一样优雅简单的工具。
我做了一些研究,到目前为止我听说过Selenium、Selenium 2和Windmill。
现在我在这三者之间选择,但我不知道还有其他的选择。
所以,有人能告诉我这些框架的特点以及它们之间的区别吗?我听说Selenium使用一个单独的服务器来完成所有任务,而且功能非常丰富。那么Selenium和Selenium 2之间的主要区别是什么呢?如果我说错了,请指正,如果你知道其他框架,也请提一下它们的特点和其他细节。
谢谢。
1 个回答
0
在使用像Selenium这样的工具之前,这些工具主要是用来测试网页的,而不是用来抓取数据,你应该先看看网站上的数据是从哪里来的。了解一下网站发出了哪些XHR请求,这些请求需要什么参数,以及返回的结果是什么。
举个例子,你在评论中提到的网站会发送一个包含很多参数的POST请求,然后显示结果。你可能只需要使用这个POST请求的结果就能获取你想要的数据。