使用Python获取动态网站源代码（绕过onclick）

0 投票

2 回答

1108 浏览

提问于 2025-04-15 16:52

我想获取一个网站的源代码，这个网站是在点击链接后动态生成的。下面就是这个链接：

<a onclick="function(); return false" href="#">Link</a>

这让我无法直接请求一个URL来获取这个动态生成的网站（使用urllib/2）。

那么，怎么才能用python获取这个通过上面的函数生成的网页源代码（以HTML格式）呢？有没有办法绕过 return false" href="#"？或者完全绕过 onclick，直接获取实际的URL？

如果有其他方法可以从上面的抽象链接生成网站，以便可以在python中使用urllib获取，请告诉我。

编辑：

我对上面的代码进行了概括，但有人告诉我必须逆向工程特定的javascript才能使用它。

包含链接的网站链接：

<a onclick="importText(); return false" href="#">Bulk-import data</a>

相关的美化过的JS代码：http://pastie.org/737042

动态生成网页抓取 html解析 urllib 网络请求动态网站源代码获取 javascript逆向工程

2 个回答

你可能需要对这个JavaScript进行逆向工程，才能搞清楚发生了什么。

你能提供一下相关的网站和链接吗？

回答于 2025-04-15 由 Python大师

分享举报

我没有看到那个脚本里有生成内容或跟踪链接的代码；importText 只是用来控制一些 div 是否显示。

如果你想研究这个网页应用在执行某个操作时发出的请求，以便从机器人来复现这些操作，最好的办法是查看浏览器在执行这个操作时发送的 HTTP 请求（比如表单提交和 AJAX 调用）。你可以使用 Firefox 的 Firebug 的“网络”面板，或者在 IE 中使用 Fiddler 来研究这些请求。

回答于 2025-04-15 由 Python大师

分享举报