使用Python对包含Unicode的XML进行比较
我正在尝试制作一个网页工具,可以显示两个XML文件之间的差异。difflib
在生成显示差异的HTML方面效果不错,但后来XML中出现了一些Unicode文本,导致生成的HTML里出现了被编码的字母。
有没有其他方法可以解决这个问题呢?
1 个回答
1
我想你所困扰的是“HTML字符实体”,而不是它们的数字形式。你可以通过你喜欢的命令行工具,比如支持正则表达式的工具(例如sed),来重新映射它们,使用来自unicode e-workers或参考资料的表格。数字实体编码可以在HTML和XML文件中使用。
祝好,卡斯滕