通过Scrapy (Python 2.7) 下载动态网页内容

0 投票
1 回答
860 浏览
提问于 2025-04-17 12:25

我又回到了这个项目(抓取动态内容的网站),我跟着一个教程在做,但就是完成不了。

我用的是 Python 2.7 和 scrapy 框架的 0.14 版本。

在我的项目中,获取数据显然是最重要的部分,我开始理解如何抓取那些通过 ajax 拉取动态数据的网站,但在这个例子中,我却无法下载图片。

这个抓取程序是通过命令(在 Windows 7 的 cmd.exe 中)运行的:

scrapy runspider nasa.py

但是它实际上并没有下载任何东西(它只是解析了数据)。

我是不是漏掉了什么?这是我第一次真正的编程项目,已经开始走出初学者的领域,但我确实有点迷茫。

这是我参考的教程:

用 Scrapy 抓取 ajax 网站

有没有什么建议,能让我修改代码,让脚本可以把图片下载到本地存储呢?

谢谢 :)

1 个回答

1

在你的 setting.py 文件中

添加以下内容:

IMAGES_STORE = 'you dir path where you want to download images'
ITEM_PIPELINES = ['scrapy.contrib.pipeline.images.ImagesPipeline'] #enable image pipline

在你的项目中定义 image_urls

把图片的链接添加到 image_urls 中 # 在你的程序里,这个应该被当作一个列表来处理

推荐学习资料

撰写回答