如何抓取HTTPS的JavaScript网页

12 投票
3 回答
10270 浏览
提问于 2025-04-16 15:11

我想要监控一个在线目录的每日价格。这个网站使用HTTPS,并且是通过JavaScript生成目录页面的。我该如何与这个网站进行交互,让它生成我需要的页面呢?

我之前在其他网站上做过类似的事情,那些网站的HTML很容易获取,我也能顺利解析生成的HTML。

我只会Python和Java这两种编程语言。

提前谢谢大家!

3 个回答

1

我通过Python的接口使用webkit来抓取网页上的JavaScript内容。这里有个例子可以参考

1

如果他们创建了一个Web API,让JavaScript可以直接使用,你就可以直接从这个API获取数据,而不是去解析HTML页面。

如果他们对这个API进行了混淆,或者因为其他原因你无法直接使用API,那你就需要用一个网页浏览器来运行JavaScript,然后从浏览器中提取数据。也许可以考虑写一个浏览器插件?

11

看看这个 HTMLUnit - 这是一个无头的Java浏览器,可以完全通过你的代码来控制。你可以在这里看到一个简单的例子: http://htmlunit.sourceforge.net/gettingStarted.html

(温馨提示:通过抓取网站内容,你可能会违反网站的服务条款,甚至可能面临法律问题;在开始之前,请确认你是否被允许这样做)

撰写回答