我正在尝试使用urllib2和beautifulSoup来抓取这个网站https://www.spdrs.com/product/fund.seam?ticker=SPY。但是,我发现从urllib2获得的html并不完整。节点<span>
之间的任何内容都不是从urllib2读取的字符串的一部分。在
<span xmlns="http://www.w3.org/1999/xhtml" id="performancePanel">
bunch of divs in here.
</span>
为什么会这样?我怀疑这与xmlns有关,因为我从未见过有人将此属性放在span上。在
如果您在浏览器中查看源代码,您将获得与urllib相同的视图。在
你可以看到它是这样的:
注意在这个范围内没有div。div由javascript填充。 查看源代码的底部,您将看到一些js代码和注释
^{pr2}$我想这就是它被装载的地方。在
由于数据是由javascript加载的,因此很难通过urllib进行抓取,除非对javascript进行反向工程,找出它所使用的底层api,然后再进行刮取。在
如果这太难了,您可能需要研究使用selenium来获取数据。在
相关问题 更多 >
编程相关推荐