使用beautifulsoup和filter规则清理html。

collective.soupstrainer的Python项目详细描述


集合。Soupstrainer

经常需要从某些源代码中清理html,不管是用户 输入或数据收集的刮削,这需要清理。与 集体中的Soupstrainer类。Soupstrainer这很简单。它使用 美化outsoup4来解析和清理html。类的构造函数接受 四个论点。

除外条款
这是一个元组列表,每个元组有两个项。第一项是 标记名,第二项是属性列表。如果列表 属性为空,则第一个列表中的每个标记都是完全的 从传入的HTML中删除。如果标记列表为空,则每个 已完全删除列出的属性。如果同时有标签和 列出属性,则仅从匹配中移除属性 标签。
样式白名单
这是“style”属性中允许的css样式的白色列表。全部 其他样式将被删除。
U类黑名单
这是css类的黑名单。每个匹配的类都从 “类”属性。
分析器
这是beautifulsoup4使用的解析器,当使用 一根绳子。它必须是为美化组4安装的解析器,默认为 html.parser

soupstrainer类的实例可以直接用一个 争论。参数可以是字符串,在这种情况下 内部由beautifulsoup4解析,结果将是unicode(或 python 3中的字符串),或者它可以是由beautifulsoup4创建的解析html树, 在这种情况下,它将被就地修改并再次返回。

更改日志

2.1(2019-02-06)

  • 添加对python 3和pypyy的支持。

2.0(2017-10-19)

向后不兼容的更改
  • 更新以美化组4。
  • 将参数parser添加到指定解析器的SoupStrainer中 用于美化组4。

1.0-2008年11月14日

  • 初始版本

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
JAVAutil。整数java的扫描器键盘输入   java通知运行后立即崩溃   java如何在一个只能由类修改而不能由其实例修改的类中生成静态变量?   数据库Java字段猜测   返回值周围的java括号为什么?   java Android更新通讯录中的联系人   一个消费者正在读取数据   java是否可以通过编程方式为蓝牙配对设置pin?   java Spring引导和buildResponseEntity()   java为什么序列化可以在没有实现可序列化的情况下工作   Java同步无助于相互排斥   twitter Java Twitter4J未在推文下显示源标签   为什么Javasocket不支持中断处理?