XML分析错误，HTML代码无效（Elementtree）

2024-04-25 20:39:17 发布

您现在位置：Python中文网/ 问答频道 /正文

4745

网友

男 | 程序猿一只，喜欢编程写python代码。

当我解析下面从更大的xml文件中提取的xml字符串时，我遇到了我认为是无效的HTML字符代码，解析器输出以下错误消息

错误消息是： ParseError:对无效字符号的引用

我删除了描述正文的其余部分，留下了导致错误的部分。如何让elementtree忽略这些无效的HTML字符代码或以某种方式处理它们

代码和xml摘录如下：

XML: <dc:description> **(10&#410)** </dc:description>


import os
import html
import io
import sys
import xml.etree.ElementTree as ET

def process_file(file):

    parser=ET.XMLParser(encoding='utf-8')
    tree=ET.parse(file, parser=parser)

Tags：文件字符串代码 import parser 解析器消息 html

1条回答

网友

1楼 · 发布于 2024-04-25 20:39:17

How do I get elementtree to ignore these invalid HTML character codes or process them in some way?

你没有

您正在尝试将XML工具应用于非XML数据。它拒绝合作是正当的

解决方案是首先将数据固定为XML，然后再尝试将其作为XML处理。手动执行此操作，或者尝试通过在字符/字符串级别处理文档以编程方式执行此操作

另见How to parse invalid (bad / not well-formed) XML?

XML分析错误，HTML代码无效（Elementtree）

相关问题更多 >

编程相关推荐

热门问题

热门文章

XML分析错误，HTML代码无效（Elementtree）

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >