<p>我想用Python从HTML文件中提取文本。我想要基本上相同的输出,如果我将文本从浏览器复制并粘贴到记事本。</p>
<p>我想要比在格式不好的HTML上使用可能失败的正则表达式更健壮的东西。我见过很多人推荐靓汤,但我在使用时遇到了一些问题。一方面,它提取了不需要的文本,比如JavaScript源代码。而且,它没有解释HTML实体。例如,我希望HTML源代码中的&;39;转换为文本中的撇号,就像我将浏览器内容粘贴到记事本中一样。</p>
<p><strong>更新</strong><code>html2text</code>看起来很有前途。它正确处理HTML实体并忽略JavaScript。但是,它并不完全生成纯文本;它生成的标记必须转换为纯文本。它没有示例或文档,但是代码看起来很干净。</p>
<hr/>
<p>相关问题:</p>
<ul>
<li><a href="https://stackoverflow.com/questions/37486/filter-out-html-tags-and-resolve-entities-in-python">Filter out HTML tags and resolve entities in python</a></li>
<li><a href="https://stackoverflow.com/questions/57708/convert-xmlhtml-entities-into-unicode-string-in-python">Convert XML/HTML Entities into Unicode String in Python</a></li>
</ul>