XML分析错误,HTML代码无效(Elementtree)

2024-04-25 20:39:17 发布

您现在位置:Python中文网/ 问答频道 /正文

当我解析下面从更大的xml文件中提取的xml字符串时,我遇到了我认为是无效的HTML字符代码,解析器输出以下错误消息

错误消息是: ParseError:对无效字符号的引用

我删除了描述正文的其余部分,留下了导致错误的部分。如何让elementtree忽略这些无效的HTML字符代码或以某种方式处理它们

代码和xml摘录如下:

XML: <dc:description> **(10&#410)** </dc:description>


import os
import html
import io
import sys
import xml.etree.ElementTree as ET

def process_file(file):

    parser=ET.XMLParser(encoding='utf-8')
    tree=ET.parse(file, parser=parser)



Tags: 文件字符串代码importparser解析器消息html
1条回答
网友
1楼 · 发布于 2024-04-25 20:39:17

How do I get elementtree to ignore these invalid HTML character codes or process them in some way?

你没有

您正在尝试将XML工具应用于非XML数据。它拒绝合作是正当的

解决方案是首先将数据固定为XML,然后再尝试将其作为XML处理。手动执行此操作,或者尝试通过在字符/字符串级别处理文档以编程方式执行此操作

另见How to parse invalid (bad / not well-formed) XML?

相关问题 更多 >