我计划使用lxml
来解析大量的xml文档(30+gb)。但是,我只需要完全解析其中的一些文档。我想要的文档有一些识别特性,比如<recordtype="2">
^{<例如,cd3>}值可以跨越1-10
,但我只需要2
。我们的计划是首先解析所有的xml文档,只用于识别信息。然后,使用pandas
之类的方法创建一个数据帧,其中每个文件都有这个标识信息。在那之后,过滤出符合我的限制的文件并完全解析它们。或者,如果参数匹配,则继续完全解析的if语句。我猜第二种比较省力。有没有更有效的方法让我这么做
Tags:
BeautifulSoup有很好的文档说明如何从html和xml文件中提取特性
我建议您使用xml来提取数据。我不知道你的文件格式
但是如果需要使用lxml here是一个小文档,它也使用BeautifulSoup
让你开始。下载BeautifulSoup后
示例:
这将以格式显示页面。从那时起,您将不得不提取数据的格式取决于
相关问题 更多 >
编程相关推荐