如何在Python中使用lxml获取解析的HTML页面的当前URL?

2 投票
1 回答
922 浏览
提问于 2025-04-17 09:16

在Python中,我正在解析一些网址,以便在返回的文档内容中找到某些元素。我使用的是lxml这个库,像这样:

import lxml.html as html

url = 'http://www.linktowebsite.com'
data = html.parse(url)

for d in data.xpath('body'):
    code code code

不过,有些网址会重定向到另一个页面,我想知道重定向后当前的网址是什么。我在lxml的文档中没有找到相关的信息。

我该如何找到被解析或重定向后的页面的当前网址呢?

1 个回答

4

使用 data.docinfo.URL,可以参考这个文档

示例:

In [22]: data = html.parse('http://httpbin.org/redirect/2')

In [23]: data.docinfo.URL
Out[23]: u'http://httpbin.org/get'

撰写回答