Urllib2 urlopen html不可压缩 - 问答 - Python中文网

Urllib2 urlopen html不可压缩

2024-06-06 14:35:22 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试使用urllib2和beautifulSoup来抓取这个网站https://www.spdrs.com/product/fund.seam?ticker=SPY。但是，我发现从urllib2获得的html并不完整。节点<span>之间的任何内容都不是从urllib2读取的字符串的一部分。在

<span xmlns="http://www.w3.org/1999/xhtml" id="performancePanel"> 
  bunch of divs in here.
</span>

为什么会这样？我怀疑这与xmlns有关，因为我从未见过有人将此属性放在span上。在

Tags： https com 网站 html www urllib2 product ticker

1条回答

网友

1楼 · 发布于 2024-06-06 14:35:22

如果您在浏览器中查看源代码，您将获得与urllib相同的视图。在

你可以看到它是这样的：

<span id="performancePanel"></span>

注意在这个范围内没有div。div由javascript填充。查看源代码的底部，您将看到一些js代码和注释

^{pr2}$

我想这就是它被装载的地方。在

由于数据是由javascript加载的，因此很难通过urllib进行抓取，除非对javascript进行反向工程，找出它所使用的底层api，然后再进行刮取。在

如果这太难了，您可能需要研究使用selenium来获取数据。在

相关问题更多 >

编程相关推荐

热门问题

热门文章