使用Scrapy下载PDF文件
我正在使用Scrapy这个Python的网页抓取框架,从一个网站上抓取pdf文件。
这个网站要求你保持同一个会话,才能下载pdf。
使用Scrapy的时候一切都很顺利,因为它是全自动的,但当我运行脚本几秒钟后,它开始给我一些假的pdf文件,就像我直接访问pdf时,没有保持会话一样。
这是为什么呢?有没有什么办法解决这个问题!?
1 个回答
0
我觉得这个网站会记录你的会话。如果这个网站是用PHP做的,你需要在请求中传递PHPSESSID这个cookie,这样才能下载PDF文件。