scrapy中间件为每个请求设置一个随机用户代理。

scrapy-random-ua的Python项目详细描述


你的小蜘蛛被服务器识别和阻止是因为 您使用默认的用户代理还是通用的用户代理?

使用这个random_useragent模块并为 每一个请求。

安装

安装非常简单。

pipinstallgit+https://github.com/cleocn/scrapy-random-useragent.git

用法

settings.py文件中,更新DOWNLOADER_MIDDLEWARES 像这样变化无常。

DOWNLOADER_MIDDLEWARES={'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware':None,'random_useragent.RandomUserAgentMiddleware':400}

这将禁用默认的UserAgentMiddleware,并启用 RandomUserAgentMiddleware

现在,来自爬虫程序的所有请求都将有一个随机用户代理。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何定制springdata存储库方法名称?   html有没有办法将java应用程序或JApplet嵌入到网站中?   Jackson ObjectMapper将java从字符串序列化为JSON作为namevalue   java刷新JTable?   用Java程序分发用JavaDB制作的数据库   java Android如何启动新活动   当集合大小超过500.000时,java的处理速度会显著降低   在java的分层目录中的多个目录中查找相同的文件   java如何将ArrayList数据插入数据库   java如何修改此代码,使其时间复杂度为o(logn)或o(n),而不是o(n^2)   java面板(SimplePanel)中仅显示图像的前1/3(大约),   jakarta ee Java Bean和企业Java Bean之间的区别?   创建AWS Cloudfront自签名URL(java sdk)时出现amazon web服务错误   基于Jersey和Jackson查询参数的java动态属性过滤