爬网并将html内容馈送到transmorifier管道中
transmogrify.webcrawler的Python项目详细描述
爬网-要导入的HTML
transmogrify.webcrawler 将爬网html以提取页面和文件作为transmogrifier管道的源。 transmogrify.webcrawler.typerecognator 有助于根据已爬网的mimetype设置"类型"。 transmogrify.webcrawler.cache 通过在本地存储项目,帮助加快爬网速度并减少内存使用。
这些设计图设计用于漏斗网管道,但可以单独使用。