宽松的xmlpython解析器：解析XML标记重叠

1条回答

网友
1楼 · 发布于 2024-06-09 06:18:28

html.parser.HTMLParser擅长解析标记soup，SAXXMLGenerator类有一个方便的API来基于事件生成XML。你知道吗
并不是所有的位都在这里实现，尤其不是标签的“刚性”/“权重”约束（现在我们所做的只是用我们期望的方式关闭标签，以使嵌套正确），但基本思想似乎是可行的。你知道吗
输出为
<trn>choya - <com>a cholla cactus </com> lat. Cylindropuntia native to US</trn>
这是有效的XML，嵌套方面。你知道吗
祝你好运！你知道吗
import html.parser import io from xml.sax.saxutils import XMLGenerator class Reconstructor(html.parser.HTMLParser): def __init__(self): super().__init__() self.op_stream = [] self.tag_stack = [] def handle_startendtag(self, tag, attrs): self.op_stream.append(('startendtag', (tag, attrs))) def handle_starttag(self, tag, attrs): self.op_stream.append(('starttag', (tag, attrs))) self.tag_stack.append(tag) def handle_endtag(self, tag): expected_tag = self.tag_stack[-1] if tag != expected_tag: print('mismatch closing <{}>, expected <{}>'.format(tag, expected_tag)) # TODO: implement logic to figure out the correct order for the tags here # and reorder tag_stack accordingly. stack_tag = self.tag_stack.pop(-1) self.op_stream.append(('endtag', (stack_tag, tag))) def handle_charref(self, name): self.op_stream.append(('charref', (name,))) def handle_entityref(self, name): self.op_stream.append(('entityref', (name,))) def handle_data(self, data): self.op_stream.append(('data', (data,))) def handle_comment(self, data): self.op_stream.append(('comment', (data,))) def handle_decl(self, decl): self.op_stream.append(('decl', (decl,))) def handle_pi(self, data): self.op_stream.append(('pi', (data,))) def generate_xml(self): stream = io.StringIO() xg = XMLGenerator(stream, encoding='utf-8') for op, args in self.op_stream: if op in ('startendtag', 'starttag'): tag, attrib = args xg.startElement(tag, dict(attrib)) if op == 'startendtag': xg.endElement(tag) elif op == 'endtag': tag = args[0] xg.endElement(tag) elif op == 'data': xg.characters(args[0]) else: raise NotImplementedError('Operator not implemented: %s' % op) xg.endDocument() return stream.getvalue() xr = Reconstructor() xr.feed('<trn>choya - <com>a cholla cactus lat. Cylindropuntia</com></trn> native to US') y = xr.generate_xml() print(y)

相关问题更多 >

编程相关推荐

热门问题

热门文章