如何解析包含隐藏标签的HTML页面
我正在尝试解析一些网页,以便将来使用。为了解析网页,我使用了不同的模块,比如urllib、lxml、BeautifulSoup和HTMLParser,来实现我的目标。
在解析网页的过程中,我没有遇到任何问题,直到我碰到了隐藏的标签。
当我用Chrome浏览器打开页面,并使用开发者工具查看页面元素时,我能够看到代码中的<embed>
部分:
<embed type="..." src="..." ID="..." >
我可以简单地手动复制和粘贴。
我需要从这个隐藏的标签中解析出ID
。为什么我不能用Python来解析这个部分呢?有没有办法解析这些隐藏的部分?
我知道在HTML源代码中,有些代码部分像php和asp是看不见的,但我觉得这不是这种情况。
1 个回答
1
这段“隐藏”的代码可能是在程序运行时由JavaScript生成的。
你可能更容易理解JavaScript是怎么工作的,以及它从哪里获取数据(比如网址),而不是试图让某个东西去运行这个脚本,然后再解析生成的DOM树……