Scrapy中间件,用于使用selenium下载页面html源代码,并在请求上下文中与web驱动程序交互,最终将HtmlResponse返回给spider
scrapy-selenium-middleware的Python项目详细描述
scrapy selenium中间件
要求
- 这个下载中间件应该在现有的Scrapy项目中使用
- 在运行这个中间件的机器上安装Firefox和gekodriver
皮普
pip install scrapy-selenium-middleware
使用示例
要获得完整的垃圾项目演示,请转到here
中间件从scrapy project settings
在你那讨厌的项目里设置.py文件添加以下设置
DOWNLOADER_MIDDLEWARES={"scrapy_selenium_middleware.SeleniumDownloader":451}CONCURRENT_REQUESTS=1# multiple concurrent browsers are not supported yetSELENIUM_IS_HEADLESS=FalseSELENIUM_PROXY="http://user:password@my-proxy-server:port"# set to None to not use a proxySELENIUM_USER_AGENT="User-Agent: Mozilla/5.0 (<system-information>) <platform> (<platform-details>) <extensions>"SELENIUM_REQUEST_RECORD_SCOPE=["api*"]# a list of regular expression to record the incoming requests by matching the urlSELENIUM_FIREFOX_PROFILE_SETTINGS={}SELENIUM_PAGE_LOAD_TIMEOUT=120
- 项目
标签: