使用beautifulsoup和filter规则清理html。
collective.soupstrainer的Python项目详细描述
集合。Soupstrainer
经常需要从某些源代码中清理html,不管是用户 输入或数据收集的刮削,这需要清理。与 集体中的Soupstrainer类。Soupstrainer这很简单。它使用 美化outsoup4来解析和清理html。类的构造函数接受 四个论点。
- 除外条款
- 这是一个元组列表,每个元组有两个项。第一项是 标记名,第二项是属性列表。如果列表 属性为空,则第一个列表中的每个标记都是完全的 从传入的HTML中删除。如果标记列表为空,则每个 已完全删除列出的属性。如果同时有标签和 列出属性,则仅从匹配中移除属性 标签。
- 样式白名单
- 这是“style”属性中允许的css样式的白色列表。全部 其他样式将被删除。
- U类黑名单
- 这是css类的黑名单。每个匹配的类都从 “类”属性。
- 分析器
- 这是beautifulsoup4使用的解析器,当使用 一根绳子。它必须是为美化组4安装的解析器,默认为 html.parser
soupstrainer类的实例可以直接用一个 争论。参数可以是字符串,在这种情况下 内部由beautifulsoup4解析,结果将是unicode(或 python 3中的字符串),或者它可以是由beautifulsoup4创建的解析html树, 在这种情况下,它将被就地修改并再次返回。
更改日志
2.1(2019-02-06)
- 添加对python 3和pypyy的支持。
2.0(2017-10-19)
向后不兼容的更改
- 更新以美化组4。
- 将参数parser添加到指定解析器的SoupStrainer中
用于美化组4。
1.0-2008年11月14日
- 初始版本