保守地将html转换为markdown
html2markdown的Python项目详细描述
实验性
purpose:将HTML转换为标记,同时保留不受支持的HTML标记。目标是生成可以转换回HTML的标记。这是html2markdown和html2text之间的主要区别。后者并不声称是可逆的。
用法示例
import html2markdown print html2markdown.convert('<h2>Test</h2><pre><code>Here is some code</code></pre>')
输出:
## Test Here is some code
信息和注意事项
保留标记不支持的属性
示例:<a href="http://myaddress"title="clickme"><strong>link</strong></a>
结果:[__link__](http://myaddress "click me")
示例:<a onclick="javascript:dostuff()"href="http://myaddress"title="clickme"><strong>link</strong></a>
result:<a onclick="javascript:dostuff()"href="http://myaddress"title="clickme">__link__</a>(不支持属性onclick,因此不支持标记)
限制
- 表保存为html。
更改
0.1.7:
- 改进了内联标签的处理。
- 修复:忽略不带ref属性的<a>标记。
- 改进逃跑。
0.1.6:增加了对低于2.7版本的python的测试和支持。
0.1.5:修复Python3中的Unicode问题。
0.1.0:第一个版本。