从基于字号的CSS提取文本

2024-04-19 23:10:39 发布

您现在位置:Python中文网/ 问答频道 /正文

我编写了一个函数,它根据报头的标记(h1/2…)解析所有报头。现在,我想扩展它并添加一个基于字体大小解析文本的特性—比如说20px或1.5em,而不管标题是什么。我想要一个功能,带来任何文字的字号大于X,无论它在网页上。该函数以json文件作为输入,由一个随机的HTML(以及任何网站可以拥有的,例如CSS等)组成。在

基于crummy似乎一个可能的选择是使用汤。拿来(),然而,我并没有找到很多例子将其用于此目的。在

因为字体大小可能会出现在CSS组件下,我不确定bs4是否适合它。我假设答案包括cssutilstinycss,但还没有找到将它们用于此任务的最佳方法。在

作为一个参考-我的标题标签的代码已发布,以供审阅:https://codereview.stackexchange.com/questions/166671/extract-html-content-based-on-tags-specifically-headers/166674?noredirect=1#comment317280_166674。在

我查过的帖子: What is the pythonic way to implement a css parser/replacer
Find all the span styles with font size larger than the most common one via beautiful soup python
Search in HTML page using Regex patterns with python
How to parse a web page containing CSS and HTML using python
how to extract text within font tag using beautifulsoup
Extract text with bold content from css selector

多谢了


Tags: theto函数标题htmlwithpageextract