一个简单的包,用于从(甚至损坏/无效)HTML中提取文本
html-stripper的Python项目详细描述
一个简单的包,用于从(甚至损坏/无效)HTML中提取文本。没有依赖关系,它只使用Python的内部HTMLParser
,并做了一些调整。在
用法:
fromhtml_stripperimportstrip_tagstext=strip_tags("<html>…")^{pr2}$
fromhtml_stripperimportstrip_tags,strip_multiple_newlinestext=strip_multiple_newlines(strip_tags("<html>…"))# replaces chained newlines with a single \n
- 项目
标签: