美化组获取内部HTML d

2024-05-21 01:51:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图从网站上读取数据。我可以看到我需要的值,但是这个值没有出现在下载的html代码中(使用urllib2)。该值由某个js文件创建,并作为该id的innerhtml嵌入到网页中。 PS:如何提取?原始源代码不能像浏览器那样呈现js!在


Tags: 代码id网页源代码网站htmljs浏览器
2条回答

您有两个选项:让浏览器保存DOM(这包括脚本所做的所有更改)或使用JavaScript引擎来执行嵌入的脚本。在

对于后一种路由,请尝试一个基于Java的引擎,如Rhino,并用env.js模拟浏览器。在

另一种获取数据的方法是让浏览器使用Selenium执行所有操作并读取呈现的html。有点慢但肯定有效。在

在这里,您可以找到在Python中使用Selenium的入门指南: http://jimmyg.org/blog/2009/getting-started-with-selenium-and-python.html

相关问题 更多 >