如何使用lxml.html库解析HTML
这是我网站上显示的 HTML
内容:
<meta content="auth" name="param" />
<meta content="I_WANT_THIS" name="token" />
我该如何使用 lxml.html 来获取这些内容呢?
1 个回答
2
使用 xpath 来找到 meta
标签,方法是通过 name
属性,然后获取 content
属性的值:
from lxml.html import fromstring
html_data = """ <meta content="auth" name="param" />
<meta content="I_WANT_THIS" name="token" />"""
tree = fromstring(html_data)
print tree.xpath('//meta[@name="token"]/@content')
输出结果是:
['I_WANT_THIS']