ScrapingBee对Scrapy的JavaScript支持和代理旋转
scrapy-scrapingbee的Python项目详细描述
Scrapy ScrapingBee中间件
将Scrapy与scrapingbeeapi集成,使用无头浏览器进行JavaScript和代理轮换。需要在scrapingbee.com上创建帐户以获取API密钥。在
安装
pip install scrapy-scrapingbee
配置
将您的SCRAPINGBEE_API_KEY
和ScrapingBeeMiddleware
添加到项目中设置.py. 别忘了根据你的ScrapingBee plan设置CONCURRENT_REQUESTS
。在
SCRAPINGBEE_API_KEY='REPLACE-WITH-YOUR-API-KEY'DOWNLOADER_MIDDLEWARES={'scrapy_scrapingbee.ScrapingBeeMiddleware':725,}CONCURRENT_REQUESTS=1
用法
从ScrapingBeeSpider
继承蜘蛛,并生成一个ScrapingBeeRequest
。在
ScrapingBeeSpider重写默认记录器,在Scrapy日志中隐藏API键。在
下面您可以看到httpbin.py中的spider示例。在
^{pr2}$您可以在ScrapingBeeRequest的params参数中传递ScrapingBee parameters。头和cookies像普通的垃圾请求一样被传递。ScrapingBeeRequest将所有参数、头和cookie格式化为scrapingbeeapi所期望的格式。在
示例
将API密钥添加到settings.py。在
要运行示例,您需要克隆此存储库。在您的终端中,转到examples/httpbin/httpbin
,并使用以下命令运行示例spider:
scrapy crawl httpbin
- 项目
标签: