Scrapy中间件,用于使用selenium下载页面html源代码,并在请求上下文中与web驱动程序交互,最终将HtmlResponse返回给spider

scrapy-selenium-middleware的Python项目详细描述


scrapy selenium中间件

要求

  • 这个下载中间件应该在现有的Scrapy项目中使用
  • 在运行这个中间件的机器上安装Firefox和gekodriver

皮普

  • pip install scrapy-selenium-middleware

使用示例

要获得完整的垃圾项目演示,请转到here

中间件从scrapy project settings
在你那讨厌的项目里设置.py文件添加以下设置

DOWNLOADER_MIDDLEWARES={"scrapy_selenium_middleware.SeleniumDownloader":451}CONCURRENT_REQUESTS=1# multiple concurrent browsers are not supported yetSELENIUM_IS_HEADLESS=FalseSELENIUM_PROXY="http://user:password@my-proxy-server:port"# set to None to not use a proxySELENIUM_USER_AGENT="User-Agent: Mozilla/5.0 (<system-information>) <platform> (<platform-details>) <extensions>"SELENIUM_REQUEST_RECORD_SCOPE=["api*"]# a list of regular expression to record the incoming requests by matching the urlSELENIUM_FIREFOX_PROFILE_SETTINGS={}SELENIUM_PAGE_LOAD_TIMEOUT=120

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
如何使用Java解析Html并将结果作为字符串   java我的switch语句有点问题   java在注册后为新用户生成唯一的用户ID   Java 8 lambda表达式字节码一致性   Java应用程序的playframework类型安全控制台配置   java将mxGraph导出到SVG(或任何类型的图像)   业务逻辑之前的java执行方法   LinkedList输出null的Java实现   java需要帮助检查值是否为1   java Delaunay三角形点连通性?   使用setImageResource的java相对路径   java获取方法所消耗的时间   正则表达式当字符串不匹配时,为什么javagrok返回最后一次成功匹配?   java在Spring批处理作业之后触发Spring集成出站适配器   集合Java按降序遍历映射集,返回所需的输出   代表设计模式在Swagger生成代码中的java意义?   如何使用Java代码将Sql Server的数据(行)实时复制到MySql中?