抓取有JavaScript屏幕延迟的网站
我正在尝试抓取一个网站,这个网站有一个瞬间的JavaScript延迟。
我现在用Python来抓取数据。每当我“获取”这个页面时,JavaScript的延迟还没有结束,新的页面内容还没有完全加载出来。
我该如何抓取这样一个页面呢?
1 个回答
1
你可以扩展Mozilla浏览器,制作一个网页抓取工具,这样就能充分利用浏览器的功能。当所有数据加载完毕,网页的结构(也就是DOM)建立好后,你可以用XSLT从这个结构中提取需要的数据。如果在最初加载后,网页的结构发生了动态变化,你可以采取一些方法来等待这些变化。想了解更多信息,可以访问http://www.gooseeker.com。GooSeeker提供了一个类似的工具,大家都可以免费使用。大部分代码是用JavaScript写的,比较容易理解,你可以从中找到它是如何工作的。