如何解析包含隐藏标签的HTML页面

1 投票
1 回答
1186 浏览
提问于 2025-04-16 14:08

我正在尝试解析一些网页,以便将来使用。为了解析网页,我使用了不同的模块,比如urllib、lxml、BeautifulSoup和HTMLParser,来实现我的目标。

在解析网页的过程中,我没有遇到任何问题,直到我碰到了隐藏的标签。

当我用Chrome浏览器打开页面,并使用开发者工具查看页面元素时,我能够看到代码中的<embed>部分:

 <embed type="..." src="..." ID="..." >

我可以简单地手动复制和粘贴。

我需要从这个隐藏的标签中解析出ID。为什么我不能用Python来解析这个部分呢?有没有办法解析这些隐藏的部分?

我知道在HTML源代码中,有些代码部分像php和asp是看不见的,但我觉得这不是这种情况。

1 个回答

1

这段“隐藏”的代码可能是在程序运行时由JavaScript生成的。

你可能更容易理解JavaScript是怎么工作的,以及它从哪里获取数据(比如网址),而不是试图让某个东西去运行这个脚本,然后再解析生成的DOM树……

撰写回答