过滤器在解析前使用lxm - 问答 - Python中文网

过滤器在解析前使用lxm

2024-04-20 12:21:47 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我计划使用lxml来解析大量的xml文档（30+gb）。但是，我只需要完全解析其中的一些文档。我想要的文档有一些识别特性，比如<recordtype="2">^{<例如，cd3>}值可以跨越1-10，但我只需要2。我们的计划是首先解析所有的xml文档，只用于识别信息。然后，使用pandas之类的方法创建一个数据帧，其中每个文件都有这个标识信息。在那之后，过滤出符合我的限制的文件并完全解析它们。或者，如果参数匹配，则继续完全解析的if语句。我猜第二种比较省力。有没有更有效的方法让我这么做

Tags：文件数据方法文档信息 pandas 参数 if

1条回答

网友

1楼 · 发布于 2024-04-20 12:21:47

BeautifulSoup有很好的文档说明如何从html和xml文件中提取特性

我建议您使用xml来提取数据。我不知道你的文件格式

但是如果需要使用lxml here是一个小文档，它也使用BeautifulSoup

让你开始。下载BeautifulSoup后

示例：

from b4 import BeautifulSoup

data = "file"
soup = BeautifulSoup(data, 'lxml')

print soup

这将以格式显示页面。从那时起，您将不得不提取数据的格式取决于

相关问题更多 >

编程相关推荐

热门问题

热门文章