刮痧

scrapyu的Python项目详细描述


刮痧

Build StatuscodecovPyPI - Python VersionGitHubGitHub starsGitHub forks

用户代理中间件

# settings.pyUSERAGENT_TYPE='firefox'DOWNLOADER_MIDDLEWARES={'scrapyu.UserAgentMiddleware':543,}

降价管道

^{pr2}$
# items.pyimportscrapyclassMarkdownItem(scrapy.Item):html=scrapy.Field()filename=scrapy.Field()

FirefoxCookies中间件

# settings.pyGECKODRIVER_PATH='geckodriver'DOWNLOADER_MIDDLEWARES={'scrapyu.FirefoxCookiesMiddleware':543,}

MongoDBPipeline公司

# settings.pyMONGODB_URI='mongodb://localhost:27017'# or# MONGODB_HOST = 'localhost'# MONGODB_PORT = 27017MONGODB_DATABASE='scrapyu'MONGODB_COLLECTION='items'MONGODB_BUFFER_LENGTH=100MONGODB_UNIQUE_KEY='title name'# use only if no buffer# or# MONGODB_UNIQUE_KEY = ['title', 'name']# MONGODB_UNIQUE_KEY = ('title', 'name')ITEM_PIPELINES={'scrapyu.MongoDBPipeline':300,}

再重复过滤器

# settings.pyDUPEFILTER_CLASS='scrapyu.RedisDupeFilter'REDIS_DUPE_HOST='localhost'REDIS_DUPE_PORT=6379REDIS_DUPE_DATABASE=0REDIS_DUPE_PASSWORD='password'REDIS_DUPE_KEY='requests'REDIS_DUPE_IGNORE_URL=r'http://scrapytest.org/\d+'

根斯皮德

scrapyu genspider -l

结果:

Available templates:
  single
  single_splash

生成单个文件蜘蛛

scrapyu genspider python www.python.org -t single

生成单个文件spider,集成splash

scrapyu genspider python www.python.org -t single_splash

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java操作数组上的字符串   java JAXB内容未实例化   图形在Java中如何绘制垂直居中的字符串?   java Apache Ant:使用Junit时出现NoClassDefFoundError   java无法从服务器上运行perl脚本   如何在java中沿树进行预排序遍历,并打印0和1以对应每个节点上的特定字符?   java如何创建。p12文件?   java线程访问无效   java只匹配命名空间中的XML节点,而不知道NS前缀   从java获取2d arraylist元素   数组Java动态集合对象   java Xpath通过通配符或布尔运算查找以相同名称开头的节点?   java注释元素类型   java在中看不到Super()。反编译后的类文件