加载巨大的XML文件并处理MemoryE

Python(23358) malloc: *** mmap(size=140736680968192) failed (error code=12) *** error: can't allocate region *** set a breakpoint in malloc_error_break to debug Traceback (most recent call last): File "file.py", line 5, in <module> code = xml.read() MemoryError

1条回答

网友

1楼 · 发布于 2024-04-27 05:43:53

不要使用BeautifulSoup来尝试这么大的解析XML文件。改用ElementTree API。具体来说，使用^{} function将文件解析为流，在收到元素通知时处理信息，然后再次删除元素：

from xml.etree import ElementTree as ET

parser = ET.iterparse(filename)

for event, element in parser:
    # element is a whole element
    if element.tag == 'yourelement'
         # do something with this element
         # then clean up
         element.clear()

通过使用事件驱动方法，您无需将整个XML文档保存在内存中，只需提取所需内容并丢弃其余内容。

请参阅^{} tutorial and documentation。

或者，您也可以使用lxml library；它在一个更快、功能更丰富的包中提供相同的API。

相关问题更多 >

编程相关推荐

热门问题

热门文章

加载巨大的XML文件并处理MemoryE

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >