我编写了一个函数,它根据报头的标记(h1/2…)解析所有报头。现在,我想扩展它并添加一个基于字体大小解析文本的特性—比如说20px或1.5em,而不管标题是什么。我想要一个功能,带来任何文字的字号大于X,无论它在网页上。该函数以json文件作为输入,由一个随机的HTML(以及任何网站可以拥有的,例如CSS等)组成。在
基于crummy似乎一个可能的选择是使用汤。拿来(),然而,我并没有找到很多例子将其用于此目的。在
因为字体大小可能会出现在CSS组件下,我不确定bs4
是否适合它。我假设答案包括cssutils
或tinycss
,但还没有找到将它们用于此任务的最佳方法。在
作为一个参考-我的标题标签的代码已发布,以供审阅:https://codereview.stackexchange.com/questions/166671/extract-html-content-based-on-tags-specifically-headers/166674?noredirect=1#comment317280_166674。在
我查过的帖子:
What is the pythonic way to implement a css parser/replacer;
Find all the span styles with font size larger than the most common one via beautiful soup python;
Search in HTML page using Regex patterns with python;
How to parse a web page containing CSS and HTML using python;
how to extract text within font tag using beautifulsoup;
Extract text with bold content from css selector
多谢了
目前没有回答
相关问题 更多 >
编程相关推荐