使用Python对包含Unicode的XML进行比较

2 投票
1 回答
588 浏览
提问于 2025-04-16 15:31

我正在尝试制作一个网页工具,可以显示两个XML文件之间的差异。difflib在生成显示差异的HTML方面效果不错,但后来XML中出现了一些Unicode文本,导致生成的HTML里出现了被编码的字母。

有没有其他方法可以解决这个问题呢?

1 个回答

1

我想你所困扰的是“HTML字符实体”,而不是它们的数字形式。你可以通过你喜欢的命令行工具,比如支持正则表达式的工具(例如sed),来重新映射它们,使用来自unicode e-workers参考资料的表格。数字实体编码可以在HTML和XML文件中使用。

祝好,卡斯滕

撰写回答