我使用python和'requests'和'lxml'模块来创建一个解析的HTML对象。 我的任务是在下一页中找到包含字符串“googledservices”的所有链接:
http://www.euronews.com/2015/03/20/uber-taxis-overtake-new-york-yellow-cabs/
我的xpath查询是
//script[contains(@src,'google')]/@src
我认为它应该返回每个脚本节点的src属性的值,但是它失败了,因为我看到了以下查询结果:
^{pr2}$请注意:
http://partner.googleadservices.com/gpt/pubads_impl_58.js
不见了!!!在
我想我错过了一个微妙的语法点,我很高兴能得到启发。在
在请求发出的请求的响应中没有带有
src="http://partner.googleadservices.com/gpt/pubads_impl_58.js"
的脚本。它是异步加载的。在作为一种解决方法,您可以在^{} package 的帮助下使真正的浏览器自动化。在
示例(使用
PhantomJS
无头浏览器):相关问题 更多 >
编程相关推荐