如何解析包含隐藏标签的HTML页面

1 投票

1 回答

1186 浏览

提问于 2025-04-16 14:08

我正在尝试解析一些网页，以便将来使用。为了解析网页，我使用了不同的模块，比如urllib、lxml、BeautifulSoup和HTMLParser，来实现我的目标。

在解析网页的过程中，我没有遇到任何问题，直到我碰到了隐藏的标签。

当我用Chrome浏览器打开页面，并使用开发者工具查看页面元素时，我能够看到代码中的<embed>部分：

 <embed type="..." src="..." ID="..." >

我可以简单地手动复制和粘贴。

我需要从这个隐藏的标签中解析出ID。为什么我不能用Python来解析这个部分呢？有没有办法解析这些隐藏的部分？

我知道在HTML源代码中，有些代码部分像php和asp是看不见的，但我觉得这不是这种情况。

lxml 网页抓取 html解析 urllib beautifulsoup 开发者工具网页元素隐藏标签

1 个回答

这段“隐藏”的代码可能是在程序运行时由JavaScript生成的。

你可能更容易理解JavaScript是怎么工作的，以及它从哪里获取数据（比如网址），而不是试图让某个东西去运行这个脚本，然后再解析生成的DOM树……

回答于 2025-04-16 由 Python大师

分享举报