ScrapingBee对Scrapy的JavaScript支持和代理旋转

scrapy-scrapingbee的Python项目详细描述


Scrapy ScrapingBee中间件

buildversionpython

将Scrapy与scrapingbeeapi集成,使用无头浏览器进行JavaScript和代理轮换。需要在scrapingbee.com上创建帐户以获取API密钥。在

安装

pip install scrapy-scrapingbee

配置

将您的SCRAPINGBEE_API_KEYScrapingBeeMiddleware添加到项目中设置.py. 别忘了根据你的ScrapingBee plan设置CONCURRENT_REQUESTS。在

SCRAPINGBEE_API_KEY='REPLACE-WITH-YOUR-API-KEY'DOWNLOADER_MIDDLEWARES={'scrapy_scrapingbee.ScrapingBeeMiddleware':725,}CONCURRENT_REQUESTS=1

用法

ScrapingBeeSpider继承蜘蛛,并生成一个ScrapingBeeRequest。在

ScrapingBeeSpider重写默认记录器,在Scrapy日志中隐藏API键。在

下面您可以看到httpbin.py中的spider示例。在

^{pr2}$

您可以在ScrapingBeeRequest的params参数中传递ScrapingBee parameters。头和cookies像普通的垃圾请求一样被传递。ScrapingBeeRequest将所有参数、头和cookie格式化为scrapingbeeapi所期望的格式。在

示例

将API密钥添加到settings.py。在

要运行示例,您需要克隆此存储库。在您的终端中,转到examples/httpbin/httpbin,并使用以下命令运行示例spider:

scrapy crawl httpbin

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java应用程序不是在Eclipse中运行,而是在命令行中运行   swing Java图形组件问题。似乎找不到错误   我需要键盘。close();让代码正常工作?   Springboot中的java HttpSession   抽象语法树我想添加一个语句。我试图解析它,java解析器异常被抛出。如何克服它?   java Hibernate:清理会话   具有不连续子集的java划分问题   java正则表达式查找最后一个冒号后的字符串   java从SpringShell执行OS命令   Java扫描器字符串输入   java字符串索引越界异常(charAt)   java执行器服务终止被卡住   Springockito没有继承java@ContextConfiguration   java如何为一个servlet映射多个url   java安卓获取命令的stderr   java生成类型。表:数据库中的大数字   安卓 Getter Setter返回NothingJava