Urllib2 urlopen html不可压缩

2024-06-06 14:35:22 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试使用urllib2和beautifulSoup来抓取这个网站https://www.spdrs.com/product/fund.seam?ticker=SPY。但是,我发现从urllib2获得的html并不完整。节点<span>之间的任何内容都不是从urllib2读取的字符串的一部分。在

<span xmlns="http://www.w3.org/1999/xhtml" id="performancePanel"> 
  bunch of divs in here.
</span>

为什么会这样?我怀疑这与xmlns有关,因为我从未见过有人将此属性放在span上。在


Tags: httpscom网站htmlwwwurllib2productticker
1条回答
网友
1楼 · 发布于 2024-06-06 14:35:22

如果您在浏览器中查看源代码,您将获得与urllib相同的视图。在

你可以看到它是这样的:

<span id="performancePanel"></span>

注意在这个范围内没有div。div由javascript填充。 查看源代码的底部,您将看到一些js代码和注释

^{pr2}$

我想这就是它被装载的地方。在

由于数据是由javascript加载的,因此很难通过urllib进行抓取,除非对javascript进行反向工程,找出它所使用的底层api,然后再进行刮取。在

如果这太难了,您可能需要研究使用selenium来获取数据。在

相关问题 更多 >