如何使用lxml.html库解析HTML

Question

这是我网站上显示的 HTML 内容：

<meta content="auth" name="param" />
<meta content="I_WANT_THIS" name="token" />

我该如何使用 lxml.html 来获取这些内容呢？

Answer 1

使用 xpath 来找到 meta 标签，方法是通过 name 属性，然后获取 content 属性的值：

from lxml.html import fromstring


html_data = """ <meta content="auth" name="param" />
 <meta content="I_WANT_THIS" name="token" />"""

tree = fromstring(html_data)
print tree.xpath('//meta[@name="token"]/@content')

输出结果是：

['I_WANT_THIS']

如何使用lxml.html库解析HTML

1 个回答

撰写回答