如何从这个JavaScript网站抓取图片?

1 投票
3 回答
622 浏览
提问于 2025-04-16 08:19

这是一个来自数字图书馆的链接。网站上有前进和后退的按钮,可以查看下一页和上一页。我想要自动下载这些图片。我之前用过Python里的urllib这个工具,但网站很快就禁止了它。我只是想下载这本书来学习,所以有没有人能推荐一些编程工具,比如网页爬虫,可以模拟翻页的过程,自动获取图片。谢谢!

3 个回答

0

你需要一个真正的浏览器来处理这种网站。Selenium是一个选择,但它主要是用来做网站测试的。对于抓取网页内容,iMacros非常好用。我做了个简单测试,发现它在Firefox和IE上运行得很好。

Chris

0

wget 是一个非常棒的网络爬虫工具。

http://linux.die.net/man/1/wget

0

这个网站使用了Javascript,所以你不能简单地用Python来抓取它。这里有两个建议:

  1. 找出点击“下一页”按钮时发出的请求。你可以用像firebug这样的工具来查看。这样你可能会发现可以在不处理任何Javascript的情况下抓取数据。

  2. 使用像Selenium这样的工具,它可以让你在浏览器中执行脚本,从而“运行”Javascript。

至于网站封锁你的情况,有两种方法可以减少被封的可能性:

  1. 把你的用户代理改成常见浏览器的,比如Firefox。

  2. 在访问下一张图片时添加随机延迟,这样看起来就更像一个人了。

撰写回答