选择用于处理纯JavaScript网站的Python网络爬虫框架

2 投票

1 回答

1052 浏览

提问于 2025-04-16 19:24

我是一名专注于网页抓取的Python程序员，这个问题我不得不问，因为我找不到相关的信息。

我想知道有哪些流行且文档齐全的框架可以用来抓取纯JavaScript网站？目前我知道Mechanize和Beautiful Soup，但它们无法处理JavaScript，所以我在寻找其他的选择。我希望能找到一个像Mechanize一样优雅简单的工具。

我做了一些研究，到目前为止我听说过Selenium、Selenium 2和Windmill。

现在我在这三者之间选择，但我不知道还有其他的选择。

所以，有人能告诉我这些框架的特点以及它们之间的区别吗？我听说Selenium使用一个单独的服务器来完成所有任务，而且功能非常丰富。那么Selenium和Selenium 2之间的主要区别是什么呢？如果我说错了，请指正，如果你知道其他框架，也请提一下它们的特点和其他细节。

谢谢。

javascript 自动化测试数据提取网页抓取网络爬虫 selenium 爬虫框架 Windmill

1 个回答

在使用像Selenium这样的工具之前，这些工具主要是用来测试网页的，而不是用来抓取数据，你应该先看看网站上的数据是从哪里来的。了解一下网站发出了哪些XHR请求，这些请求需要什么参数，以及返回的结果是什么。

举个例子，你在评论中提到的网站会发送一个包含很多参数的POST请求，然后显示结果。你可能只需要使用这个POST请求的结果就能获取你想要的数据。

回答于 2025-04-16 由 Python大师

分享举报