当我解析下面从更大的xml文件中提取的xml字符串时,我遇到了我认为是无效的HTML字符代码,解析器输出以下错误消息
错误消息是: ParseError:对无效字符号的引用
我删除了描述正文的其余部分,留下了导致错误的部分。如何让elementtree忽略这些无效的HTML字符代码或以某种方式处理它们
代码和xml摘录如下:
XML: <dc:description> **(10ƚ)** </dc:description>
import os
import html
import io
import sys
import xml.etree.ElementTree as ET
def process_file(file):
parser=ET.XMLParser(encoding='utf-8')
tree=ET.parse(file, parser=parser)
你没有
您正在尝试将XML工具应用于非XML数据。它拒绝合作是正当的
解决方案是首先将数据固定为XML,然后再尝试将其作为XML处理。手动执行此操作,或者尝试通过在字符/字符串级别处理文档以编程方式执行此操作
另见How to parse invalid (bad / not well-formed) XML?
相关问题 更多 >
编程相关推荐