scrapy中间件为每个请求设置一个随机用户代理。

scrapy-random-ua的Python项目详细描述


你的小蜘蛛被服务器识别和阻止是因为 您使用默认的用户代理还是通用的用户代理?

使用这个random_useragent模块并为 每一个请求。

安装

安装非常简单。

pipinstallgit+https://github.com/cleocn/scrapy-random-useragent.git

用法

settings.py文件中,更新DOWNLOADER_MIDDLEWARES 像这样变化无常。

DOWNLOADER_MIDDLEWARES={'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware':None,'random_useragent.RandomUserAgentMiddleware':400}

这将禁用默认的UserAgentMiddleware,并启用 RandomUserAgentMiddleware

现在,来自爬虫程序的所有请求都将有一个随机用户代理。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java PUT请求提供415不支持的媒体类型   JavaMockito:如何在不模拟所有参数的情况下轻松地存根一个方法   java如何将NameValuePair传递给安卓中的另一个活动?   servalet java中的tomcat错误   java Android手机无法连接到eclipse   nullpointerexception在Java中如何将null转换为false?   Java中的http代理身份验证   java如何确保最新版本的JAR与JNLP应用程序一起使用?   简单Java代码上的性能大内存占用   列出AWS EC2实例上运行的服务上的对象时,java 403访问被拒绝   java创建一个类,当创建一个新实例时,它会被添加到一个hasmap中   LookupService中的java getLocation方法返回null   java获取要在ListView中显示的ArrayList字符串编号/位置