目前,我已经尝试对这个具有不同表结构的文件使用xml.dom.minidom.parser和xml.etree.ElementTree
每当我尝试使用这些命令时,都会收到一条错误消息“ExpatError:格式不正确(无效令牌):第300606行,第37列”
我正在使用的文件是来自https://omia.org/download/的omia.xml.zip文件。
如何处理这种格式化文件
我试图将beautifulsoup与xml和lxml结合使用,但似乎我在这方面也遇到了一些问题。(I pip安装lxml,但未被识别)
Tags:
这看起来像是元素内容的编码问题。以下是xmllint报告的内容:
您可以过滤无效字符,但我不确定这将如何影响您的预期结果
相关问题 更多 >
编程相关推荐