我已经在Win10上安装了python2.7.13、pip和beautifulsoup。我想把一个包含html实体的大文件转换成Unicode字符,但我不知道该怎么做(我对Python不太了解)。文件内容如下:
<b>γέρων</b>, <i>οντος, ὁ</i>, Wurzel <i>ΓΕΡ</i>, verwandt mit <i>γέρας, γεραρός, γεραιός</i>
我可以用EmEditor做一些小的工作(使用Edit>;Encode/Decode Selection->HTML/XML字符引用Unicode),但它太慢了,无法处理大文件转换)。在
我会很高兴的任何(离线)解决方案。在
输出:
^{pr2}$Document:
这是html编码的,请尝试以下操作:
beauthoulsoup有一个内置函数用于执行此操作,称为
.decode()
。当你读入文件时,只需将此添加到行尾!在示例:
相关问题 更多 >
编程相关推荐