使用BeautifulGroup拆分HTML文档

2024-04-25 14:39:49 发布

您现在位置:Python中文网/ 问答频道 /正文

我们处理长聚合的HTML文档(用于转换为PDF)。 在某些情况下,聚合的HTML文档必须按章节(以H1标记开头的专用HTML页面)或子章节(以每个H1或H2标记开头的专用HTML页面)进行拆分。到目前为止,我们使用beauthoulsoup来处理聚合的HTML,但是我们没有找到一个合适的方法来使用beauthoulsoup来提取子文档(例如从第一个H1到下一个H2)。在


Tags: 方法文档标记pdfhtml情况页面h2
2条回答

我有一些与beauthulsoup合作的经验,我不确定它是否支持您直接想做的事情。这里有两个想法

搜索

下面是一些搜索工具的文档。也许你可以同时搜索H1s和H2s,看看这是否有助于提取子文档

http://www.crummy.com/software/BeautifulSoup/documentation.html#Searching the Parse Tree

漂亮打印+grep

BeautifulSoup有一个非常有用的美化功能来漂亮地打印html。完成后,每个H1或H2将位于自己的行上,在这种情况下,可以轻松地使用诸如grep这样的文本操作实用程序来轻松地确定包含H1和H2的行号,并简单地获取中间的文本。在

http://www.crummy.com/software/BeautifulSoup/documentation.html#Printing a Document

既然没有人向您提出使用解析器的解决方案,我建议您使用正则表达式自己管理吗?在

丹麦语的第二点也有相同的性质,因为grep这个名字来自“global-regular expression-print”。但由于必须使用美化功能进行初步处理,这一点很复杂。在

相反,正则表达式是一种强大的工具,可以直接用于文本。在

你能告诉我你想做什么吗?在

相关问题 更多 >