如何从meta标记中可靠地提取属性、内容？

2024-04-19 05:31:31 发布

您现在位置：Python中文网/ 问答频道 /正文

3634

网友

男 | 程序猿一只，喜欢编程写python代码。

我有下面几行HTML。我需要提取并获取og:image和content属性的列表。问题是，如果我这么简单的话字符串.拆分（），以下行的结果将不同，因为第二行的content值中有许多空格。在

如何可靠地处理这些字符串行并获得一个列表，如： ['og:image', 'http....whatever.jpg']第二行也一样吗？在

 <meta property="og:image" content="http://google.com/example.jpg"/>
 <meta property="og:title" content="Fant over 300 falske personer i skattelistene"/>

编辑：我现在这样分析：

^{pr2}$

也许有一种方法可以使用XPath直接将内容/属性放入列表中？在

Tags：字符串 image com http 列表属性 html google

1条回答

网友

1楼 · 发布于 2024-04-19 05:31:31

不要将元素转换回字符串，只需通过每个元素的attrib映射获取属性：

for i in m:
    print (i.attrib['property'], i.attrib['content'])

如何从meta标记中可靠地提取属性、内容？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何从meta标记中可靠地提取属性、内容？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >