如何在Python中使用lxml获取解析的HTML页面的当前URL?
在Python中,我正在解析一些网址,以便在返回的文档内容中找到某些元素。我使用的是lxml这个库,像这样:
import lxml.html as html
url = 'http://www.linktowebsite.com'
data = html.parse(url)
for d in data.xpath('body'):
code code code
不过,有些网址会重定向到另一个页面,我想知道重定向后当前的网址是什么。我在lxml的文档中没有找到相关的信息。
我该如何找到被解析或重定向后的页面的当前网址呢?
1 个回答
4
使用 data.docinfo.URL
,可以参考这个文档
示例:
In [22]: data = html.parse('http://httpbin.org/redirect/2')
In [23]: data.docinfo.URL
Out[23]: u'http://httpbin.org/get'