使用BeautifulGroup拆分HTML文档

2条回答

网友

1楼 · 编辑于 2024-04-25 14:39:49

我有一些与beauthulsoup合作的经验，我不确定它是否支持您直接想做的事情。这里有两个想法

搜索

下面是一些搜索工具的文档。也许你可以同时搜索H1s和H2s，看看这是否有助于提取子文档

漂亮打印+grep

BeautifulSoup有一个非常有用的美化功能来漂亮地打印html。完成后，每个H1或H2将位于自己的行上，在这种情况下，可以轻松地使用诸如grep这样的文本操作实用程序来轻松地确定包含H1和H2的行号，并简单地获取中间的文本。在

网友

2楼 · 编辑于 2024-04-25 14:39:49

既然没有人向您提出使用解析器的解决方案，我建议您使用正则表达式自己管理吗？在

丹麦语的第二点也有相同的性质，因为grep这个名字来自“global-regular expression-print”。但由于必须使用美化功能进行初步处理，这一点很复杂。在

相反，正则表达式是一种强大的工具，可以直接用于文本。在

你能告诉我你想做什么吗？在