scrapy中间件为每个请求设置一个随机用户代理。
scrapy-random-ua的Python项目详细描述
你的小蜘蛛被服务器识别和阻止是因为 您使用默认的用户代理还是通用的用户代理?
使用这个random_useragent模块并为 每一个请求。
安装
安装非常简单。
pipinstallgit+https://github.com/cleocn/scrapy-random-useragent.git
用法
在settings.py文件中,更新DOWNLOADER_MIDDLEWARES 像这样变化无常。
DOWNLOADER_MIDDLEWARES={'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware':None,'random_useragent.RandomUserAgentMiddleware':400}
这将禁用默认的UserAgentMiddleware,并启用 RandomUserAgentMiddleware。
现在,来自爬虫程序的所有请求都将有一个随机用户代理。