一个简单的包,用于从(甚至损坏/无效)HTML中提取文本

html-stripper的Python项目详细描述


一个简单的包,用于从(甚至损坏/无效)HTML中提取文本。没有依赖关系,它只使用Python的内部HTMLParser,并做了一些调整。在

用法:

fromhtml_stripperimportstrip_tagstext=strip_tags("<html>…")
^{pr2}$
fromhtml_stripperimportstrip_tags,strip_multiple_newlinestext=strip_multiple_newlines(strip_tags("<html>…"))# replaces chained newlines with a single \n

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java接口中的每个方法都是抽象的,但在抽象类中,我们也只能使用抽象方法   初始化Java中声明的、未初始化的变量会发生什么情况?   java BouncyCastle openPGP将字节[]数组加密为csv文件   在Java中将类A(和所有子类)映射到类B的实例的字典   RSA公钥编码,在Java和Android中,代码相同,结果不同   java在安卓中实现数字检测语音识别   java取消选择复选框   java如何在其他配置中重用Maven配置XML片段   java有没有一种有效的方法来检查HashMap是否包含映射到相同值的键?   spring处理程序调度失败;嵌套的例外是java。lang.NoClassDefFoundError:org/apache/http/client/HttpClient   带有ehcache的java多层缓存   java如何访问chromium(或任何其他浏览器)cookie   java通过将两个集合与spring data mongodb data中的条件合并来获取计数   安卓中R.java的语法错误