过滤器在解析前使用lxm

2024-04-20 12:21:47 发布

您现在位置:Python中文网/ 问答频道 /正文

我计划使用lxml来解析大量的xml文档(30+gb)。但是,我只需要完全解析其中的一些文档。我想要的文档有一些识别特性,比如<recordtype="2">^{<例如,cd3>}值可以跨越1-10,但我只需要2。我们的计划是首先解析所有的xml文档,只用于识别信息。然后,使用pandas之类的方法创建一个数据帧,其中每个文件都有这个标识信息。在那之后,过滤出符合我的限制的文件并完全解析它们。或者,如果参数匹配,则继续完全解析的if语句。我猜第二种比较省力。有没有更有效的方法让我这么做


Tags: 文件数据方法文档信息pandas参数if
1条回答
网友
1楼 · 发布于 2024-04-20 12:21:47

BeautifulSoup有很好的文档说明如何从html和xml文件中提取特性

我建议您使用xml来提取数据。我不知道你的文件格式

但是如果需要使用lxml here是一个小文档,它也使用BeautifulSoup

让你开始。下载BeautifulSoup后

示例:

from b4 import BeautifulSoup

data = "file"
soup = BeautifulSoup(data, 'lxml')

print soup

这将以格式显示页面。从那时起,您将不得不提取数据的格式取决于

相关问题 更多 >