我有下面几行HTML。我需要提取并获取og:image
和content
属性的列表。问题是,如果我这么简单的话字符串.拆分(),以下行的结果将不同,因为第二行的content
值中有许多空格。在
如何可靠地处理这些字符串行并获得一个列表,如:
['og:image', 'http....whatever.jpg']
第二行也一样吗?在
<meta property="og:image" content="http://google.com/example.jpg"/>
<meta property="og:title" content="Fant over 300 falske personer i skattelistene"/>
编辑: 我现在这样分析:
^{pr2}$也许有一种方法可以使用XPath直接将内容/属性放入列表中?在
不要将元素转换回字符串,只需通过每个元素的
attrib
映射获取属性:相关问题 更多 >
编程相关推荐