带模板的html scraper

weakscraper的Python项目详细描述


#懦夫 带有模板的HTML scraper

##说明

大多数html页面都是使用模板生成的。为什么不使用模板也刮html页面?至于模板语言,让我们使用html加上一些关键字。这样,weakscraper的工作流程如下: *获取要废弃的HTML页面的源代码。 *使用几个关键字,编辑html以选择感兴趣的信息和要丢弃的部分。 *如果需要复杂的处理,则编写其他回调。 *在模板和html上运行weakscraper。

##专业人士 *遵守[最小功率规则](https://en.wikipedia.org/wiki/Rule_of_least_power)。声明性语言有助于关注what要保留的内容。how信息如何被废弃是库的工作。

##缺点

##示例

##它是怎么工作的?

##许可证

麻省理工学院(http://www.opensource.org/licenses/mit-license.php

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
在ElasticSearch中将SearchHit转换为Java对象   第三方库类的java重写XmlAdapter   java如何使用动画类获得平滑的动画效果?   Java PDFBox如果文本内容超过PDF的第一页,如何添加新页面?   Java二叉搜索树u根到最近叶的距离   java什么是diff Scanner和BufferedReader   java如何设计不生成并行数组的程序   java多次声明变量会降低执行速度吗?   java如何使用JXLAPI读取下拉列表的值   多线程为什么自定义阻塞队列在Java中不是线程安全的   java在一个变量中每输入1000个单位,就从另一个变量中减去1?   java Mapstruct通用映射器   Java中的类能否确定它是否已被修改?   java如何在MogoOperations聚合函数中定义输出类型?