用XPath获取(X)HTML文档中meta元素的charset属性
我正在用Python做一些网页抓取的工作。不过,正如你所知道的,有些网页使用不同的字符编码。我需要获取这些网页的字符编码。简单来说,对于lxml来说,什么是xpath模式?
谢谢。
1 个回答
3
这个:
/html/head/meta[@http-equiv='Content-Type']/@content
HTML5:
/html/head/meta/@charset