正在分析上的多个HTML文档

2024-04-24 01:30:47 发布

您现在位置:Python中文网/ 问答频道 /正文

我有成千上万的HTML文档保存在我的计算机中,我需要使用beauthoulsoup解析它们,在每个文档之间使用相同的一致标记。在

目前我遍历我的HTML文件文件夹,打开每个文件,解析它,然后关闭。但是打开/解析/关闭所需的时间太长。我试图在一个文本文档中保存几个HTML文档,并“重做”开始和结束的HTML标记,但是我不完全确定解析是如何工作的,所以我不确定是否在不扰乱解析过程的情况下重新排列文档。在

有什么标准化的方法吗?如果我能将尽可能多的HMTL代码合并到一个文本文档中,我想我会使这一部分的过程更快。在

编辑: 在每个html文档中,我只需要查找多达100个单独的“项”,因此一次只能解析多达100个。我并不是想更快地解析我的文档,而是希望尽可能多地将html文档保存到一个文本文件中,希望一次能够解析1000个条目,如果可能的话,可以多解析多个条目。在


Tags: 文件方法文档标记文件夹过程html计算机