擅长:python、mysql、java
<p>Cleaner总是将结果包装在一个元素中。一个好的解决方案是手动解析HTML并将生成的document对象发送到cleaner—那么结果也是一个document对象,您可以使用text_content从根中提取文本。在</p>
<pre><code>from lxml.html import document_fromstring
from lxml.html.clean import Cleaner
evil = "<script>malignus script</script><b>bold text</b><i>italic
text</i>"
doc = document_fromstring(evil)
cleaner = Cleaner(remove_unknown_tags=False, allow_tags=['p', 'br', 'b'],
page_structure=True)
print cleaner.clean_html(doc).text_content()
</code></pre>
<p>这也可以作为<a href="https://stackoverflow.com/a/54216744/187273">one liner</a>完成</p>