擅长:python、mysql、java
<p><strong>注意:</strong>NTLK不再支持<code>clean_html</code>函数</p>
<p>原始答案如下,并在评论部分的备选方案。</p>
<hr/>
<p>使用<a href="https://pypi.python.org/pypi/nltk" rel="noreferrer">NLTK</a></p>
<p>我浪费了4-5个小时来解决html2text的问题。幸运的是,我可以遇到NLTK。<br/>
它神奇地工作。</p>
<pre><code>import nltk
from urllib import urlopen
url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
html = urlopen(url).read()
raw = nltk.clean_html(html)
print(raw)
</code></pre>