Python scrapy-scylla-proxies包_程序模块 - PyPI

scrapy锡拉代理：从锡拉获取有效代理的随机代理中间件。

scrapy-scylla-proxies的Python项目详细描述

用于Scrapy

的随机代理中间件

使用Scylla来获取有效代理。< EH3>
注：我不是一个'真正的'程序员，帮助总是赞赏！但它有效！…现在。
使用随机代理来处理FLIP请求以避免IP禁止提高爬行速度，这就进入了SelLLA项目，它提供了代理的本地数据库。

安装并运行锡拉

“锡拉”项目需要单独设立！！最快的方法是使用Docker容器。以下命令将下载并运行“锡拉”（当然，前提是您安装了Docker）。

docker run -d -p 8899:8899 -p 8081:8081 --name scylla wildcat/scylla:latest

< H2>安装SCLLA代理软件< /H2>

快捷方式：

pip install scrapy-scylla-proxies

或者签出源并运行

python setup.py install

在scrapy的“settings.py”中放什么

这是你将需要集成这个中间件与scrapy的东西。

ssp_enabled-此必须设置为true。

ssp_scylla_uri-锡拉api的位置（默认值：'http://localhost:8899'）。

ssp_proxy_timeout-刷新代理列表的频率（默认值：60s）。

^ {STR 1 } $sSP.http>是否只使用HTTPS代理，如果您正在抓取HTTPS站点（默认值：TRUE），则需要将此集合设置为TRUE。

ssp_splash_request_enabled-此中间件是否需要为“scrapy.request”或“splash request”设置代理（默认值：false）

示例“settings.py”

这是一个直接从我的工作铲取来的样本，我用它从一个网站上刮去大约15000个项目而没有任何“禁令”。
# Configure maximum concurrent requests performed by Scrapy (default: 16) CONCURRENT_REQUESTS = 32 # Enable or disable downloader middlewares # See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html DOWNLOADER_MIDDLEWARES = { # For retries 'scrapy.downloadermiddlewares.retry.RetryMiddleware': 290, # For random scylla proxies 'scrapy_scylla_proxies.random_proxy.RandomProxyMiddleware': 300, # For http proxy ip rotation 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750, } DOWNLOAD_TIMEOUT = 180 RETRY_TIMES = 10 RETRY_HTTP_CODES = [500, 502, 503, 504, 408, 400, 429, 403, 404] # scrapy-scylla-proxies settings # Enabled SSP_ENABLED = True # Location of the scylla server SSP_SCYLLA_URI = 'http://localhost:8899' # Proxy timeout in seconds SSP_PROXY_TIMEOUT = 60 # Get only https proxies SSP_HTTPS = True
提示
我还发现，将用户代理与这个中间件组合在一起，可以有助于最小化由于被禁止而导致的失败！
捐赠
如果你喜欢这个中间件或者它对你有帮助，你可以随时给我一个小捐款，甚至只是一个象征性的数额。它将鼓励我继续开发和改进这个中间件！：：火灾：：：
Donate here!
标签：
中间件
项目
py
http
代理
settings
scrapy
proxies
ssp
scylla
欢迎加入QQ群-->： 979659372
推荐PyPI第三方库
Flask-Gist
在模板上呈现github gist的简单flask扩展
odoo9-addon-operating-unit
经营单位是公司的组织实体
bio-jtools
一个软件包中的各种生物信息学工具
ovostock
ovostock是一个机器学习工具，用于进行股市预测。
CaTeX
连接乳胶文档。
python-audioprocessing
一套处理音频的方便工具
quicklock
一个简单的python资源锁，确保一次只有一个进程使用特定的资源运行。
my.macro.concat
从其他几个部分连接目标部分上的选项
envreplace
envreplace:取消扩展环境变量以获得更紧凑的输出
plydata
在python中操作数据的函数
RelayMuseum
康朗接力赛的网络博物馆。
awscon
显示所有可用ec2实例并为所选实例启动ssm控制台会话的包装器
sphinxcontrib-gravatar
狮身人面像
odoo10-addon-l10n-it-website-sale-corrispettivi
意大利本地化-网站销售Corrispettivi
v-palette
方便使用材料设计颜色的实用程序

导航栏
项目描述
版本历史
下载文件
项目链接
首页
标签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
维护者
kevinglasson
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
python语法错误（如果不在Z中，则在X中表示s）
Python语法错误（无效）概率
python语法错误*带有可选参数的args
python语法错误2.5版有什么办法解决吗？
Python语法错误2.7.4
python语法错误30/09/2013
Python语法错误E001
Python语法错误not（）op
python语法错误outpu
Python语法错误print len（）
python语法错误w3
Python语法错误不是caugh
python语法错误及yt-packag的使用
python语法错误可以查出来！！瓦里亚布
Python语法错误可能是缩进？

scrapy-scylla-proxies 0.5.0.5

scrapy-scylla-proxies的Python项目详细描述

用于Scrapy

使用Scylla来获取有效代理。< EH3>注：我不是一个'真正的'程序员，帮助总是赞赏！但它有效！…现在。使用随机代理来处理FLIP请求以避免IP禁止 提高爬行速度，这就进入了SelLLA项目，它提供了代理的本地数据库。

安装并运行锡拉

在scrapy的“settings.py”中放什么

示例“settings.py”

提示

捐赠

推荐PyPI第三方库

Flask-Gist

odoo9-addon-operating-unit

bio-jtools

ovostock

CaTeX

python-audioprocessing

quicklock

my.macro.concat

envreplace

plydata

RelayMuseum

awscon

sphinxcontrib-gravatar

odoo10-addon-l10n-it-website-sale-corrispettivi

v-palette

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

使用Scylla来获取有效代理。< EH3>
注：我不是一个'真正的'程序员，帮助总是赞赏！但它有效！…现在。
使用随机代理来处理FLIP请求以避免IP禁止提高爬行速度，这就进入了SelLLA项目，它提供了代理的本地数据库。

导航栏

项目链接

标签