使用Python获取动态网站源代码(绕过onclick)

0 投票
2 回答
1108 浏览
提问于 2025-04-15 16:52

我想获取一个网站的源代码,这个网站是在点击链接后动态生成的。下面就是这个链接:

<a onclick="function(); return false" href="#">Link</a>

这让我无法直接请求一个URL来获取这个动态生成的网站(使用urllib/2)。

那么,怎么才能用python获取这个通过上面的函数生成的网页源代码(以HTML格式)呢?有没有办法绕过 return false" href="#"?或者完全绕过 onclick,直接获取实际的URL?

如果有其他方法可以从上面的抽象链接生成网站,以便可以在python中使用urllib获取,请告诉我。


编辑:

我对上面的代码进行了概括,但有人告诉我必须逆向工程特定的javascript才能使用它。

这个.js文件的链接 - http://a.quizlet.com/j/english/create_setku80j8.js

包含链接的网站链接:

<a onclick="importText(); return false" href="#">Bulk-import data</a>

网站的实际URL:http://quizlet.com/create_set/

相关的美化过的JS代码:http://pastie.org/737042

2 个回答

2

你可能需要对这个JavaScript进行逆向工程,才能搞清楚发生了什么。

你能提供一下相关的网站和链接吗?

1

我没有看到那个脚本里有生成内容或跟踪链接的代码;importText 只是用来控制一些 div 是否显示。

如果你想研究这个网页应用在执行某个操作时发出的请求,以便从机器人来复现这些操作,最好的办法是查看浏览器在执行这个操作时发送的 HTTP 请求(比如表单提交和 AJAX 调用)。你可以使用 Firefox 的 Firebug 的“网络”面板,或者在 IE 中使用 Fiddler 来研究这些请求。

撰写回答