scrapy中间件为每个请求设置一个随机用户代理。
scrapy-random-useragent的Python项目详细描述
你的小蜘蛛被服务器识别和阻止是因为 您使用默认的用户代理还是通用的用户代理?
使用这个random_useragent模块并为 每一个请求。你只受 在文本文件中设置的用户代理。
安装
安装非常简单。
pipinstallscrapy-random-useragent
用法
在settings.py文件中,更新DOWNLOADER_MIDDLEWARES 像这样变化无常。
DOWNLOADER_MIDDLEWARES={'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware':None,'random_useragent.RandomUserAgentMiddleware':400}
这将禁用默认的UserAgentMiddleware,并启用 RandomUserAgentMiddleware。
然后,创建一个新变量USER_AGENT_LIST,其中包含 包含所有用户代理列表的文本文件 (每行一个用户代理)。
USER_AGENT_LIST="/path/to/useragents.txt"
现在,来自爬虫程序的所有请求都将有一个随机的用户代理 从文本文件中选取。