如何从meta标记中可靠地提取属性、内容?

2024-04-19 05:31:31 发布

您现在位置:Python中文网/ 问答频道 /正文

我有下面几行HTML。我需要提取并获取og:imagecontent属性的列表。问题是,如果我这么简单的话字符串.拆分(),以下行的结果将不同,因为第二行的content值中有许多空格。在

如何可靠地处理这些字符串行并获得一个列表,如: ['og:image', 'http....whatever.jpg']第二行也一样吗?在

 <meta property="og:image" content="http://google.com/example.jpg"/>
 <meta property="og:title" content="Fant over 300 falske personer i skattelistene"/>

编辑: 我现在这样分析:

^{pr2}$

也许有一种方法可以使用XPath直接将内容/属性放入列表中?在


Tags: 字符串imagecomhttp列表属性htmlgoogle