识别网页动态内容

0 投票
1 回答
1335 浏览
提问于 2025-04-17 10:17

我用Python编程,对HTML、MySQL、JavaScript或其他数据库语言了解得不多。

我正在使用Python的urllib模块来获取网页的源代码,我想知道有没有办法判断一个网页是否有动态内容。这里的动态内容指的是那些不依赖用户输入而自动变化的内容。例如,如果网页上的广告每10分钟就会变化。即使我加载页面两次并比较源代码,也无法发现这个页面实际上是动态的。我想知道在源代码中有没有什么“关键词”可以帮助我识别这个网页是否使用了动态内容。

谢谢

更新:

我不敢说我对JavaScript了解很多,但我在一个我知道是动态的页面上发现了以下代码,但它通常不会显示出这一点:

document.write('<script language="JavaScript" src="http://ad.doubleclick.net...

那么document.write是否可以作为识别动态页面的一个好关键词呢?

1 个回答

5

这件事其实挺难的。简单来说,你需要找找那些ajax请求,看看它们指向哪里。如果你想提取那些动态生成的内容,就得用一个能执行JavaScript的工具,或者像浏览器那样去加载页面。我想不出其他的解决办法了。

祝你好运。

撰写回答