正在分析未知标记xml fi

import xml.sax as sax import xml.sax.handler as saxhandler import pprint class TagParser(saxhandler.ContentHandler): # http://docs.python.org/library/xml.sax.handler.html#contenthandler-objects def __init__(self): self.tags = {} def startElement(self, name, attrs): self.tag = name def endElement(self, name): if self.tag: self.tags[self.tag] = self.data self.tag = None self.data = None def characters(self, content): self.data = content parser = TagParser() src = '''\ <some_root_name> <tag_x>bubbles</tag_x> <tag_y>car</tag_y> <tag...>42</tag...> </some_root_name>''' sax.parseString(src, parser) pprint.pprint(parser.tags)

File "extract_xml.py", line 59, in unittest sax.parseString(src, parser) File "C:\Python27\lib\xml\sax\__init__.py", line 49, in parseString parser.parse(inpsrc) File "C:\Python27\lib\xml\sax\expatreader.py", line 107, in parse xmlreader.IncrementalParser.parse(self, source) File "C:\Python27\lib\xml\sax\xmlreader.py", line 125, in parse self.close() File "C:\Python27\lib\xml\sax\expatreader.py", line 217, in close self.feed("", isFinal = 1) File "C:\Python27\lib\xml\sax\expatreader.py", line 211, in feed self._err_handler.fatalError(exc) File "C:\Python27\lib\xml\sax\handler.py", line 38, in fatalError raise exception xml.sax._exceptions.SAXParseException: <unknown>:2:4: no element found

2条回答

网友

1楼 · 编辑于 2024-05-15 22:02:31

TagParser使用endElement向self.tags添加数据。在

其中src等于

src = '''\
<review type="review"><link>http://www.openlist.com/new-york-ny/mickey-mantles/27612417/?numReviews=178</link></review>
'''

<review>没有结束标记，</review>，因此endElement永远不会被调用。在

如果将结束标记</review>添加到src：

src = '''\
<review type="review"><link>http://www.openlist.com/new-york-ny/mickey-mantles/27612417/?numReviews=178</link></review>
'''

然后程序就产生了

{u'link': u'http://www.openlist.com/new-york-ny/mickey-mantles/27612417/?numReviews=178'}

网友

2楼 · 编辑于 2024-05-15 22:02:31

尽管你的问题是这样说的：

parser = TagParser()
src = '''\
<some_root_name>
    <tag_x>bubbles</tag_x>
    <tag_y>car</tag_y>
    <tag...>42</tag...>
</some_root_name>'''
sax.parseString(src, parser)
pprint.pprint(parser.tags)

parser.tags结果是：

^{pr2}$

您的另一个示例失败了，但这仅仅是因为它不是有效的XML：

src = '''<review type="review"><link>http://www.openlist.com/new-york-ny/mickey-mantles/27612417/?numReviews=178</link>'''
parser = TagParser()
sax.parseString(src, parser)
pprint.pprint(parser.tags)

在源代码中，review标记从未关闭，因此这不是一个有效的XML片段，因此当您尝试解析它时，它会引发异常。在

如果您的问题是从有效文档中取出不完整的片段，请不要这样做；将整个review标记全部取出并解析，而不是试图从中解析出一行。在

如果您的问题是源数据实际上不是有效的XML，那么您需要使用一个解析器来处理损坏的XML，比如BeautifulSoup；ElementTree和{}都不能工作。在

相关问题更多 >

编程相关推荐

热门问题

热门文章