通过Scrapy (Python 2.7) 下载动态网页内容
我又回到了这个项目(抓取动态内容的网站),我跟着一个教程在做,但就是完成不了。
我用的是 Python 2.7 和 scrapy 框架的 0.14 版本。
在我的项目中,获取数据显然是最重要的部分,我开始理解如何抓取那些通过 ajax 拉取动态数据的网站,但在这个例子中,我却无法下载图片。
这个抓取程序是通过命令(在 Windows 7 的 cmd.exe 中)运行的:
scrapy runspider nasa.py
但是它实际上并没有下载任何东西(它只是解析了数据)。
我是不是漏掉了什么?这是我第一次真正的编程项目,已经开始走出初学者的领域,但我确实有点迷茫。
这是我参考的教程:
有没有什么建议,能让我修改代码,让脚本可以把图片下载到本地存储呢?
谢谢 :)
1 个回答
1
在你的 setting.py 文件中
添加以下内容:
IMAGES_STORE = 'you dir path where you want to download images'
ITEM_PIPELINES = ['scrapy.contrib.pipeline.images.ImagesPipeline'] #enable image pipline
在你的项目中定义 image_urls
把图片的链接添加到 image_urls 中 # 在你的程序里,这个应该被当作一个列表来处理