如何在Python中使用lxml获取解析的HTML页面的当前URL？

2 投票

1 回答

922 浏览

提问于 2025-04-17 09:16

在Python中，我正在解析一些网址，以便在返回的文档内容中找到某些元素。我使用的是lxml这个库，像这样：

import lxml.html as html

url = 'http://www.linktowebsite.com'
data = html.parse(url)

for d in data.xpath('body'):
    code code code

不过，有些网址会重定向到另一个页面，我想知道重定向后当前的网址是什么。我在lxml的文档中没有找到相关的信息。

我该如何找到被解析或重定向后的页面的当前网址呢？

lxml html解析网络爬虫 URL重定向文档内容提取

1 个回答

使用 data.docinfo.URL，可以参考这个文档

示例：

In [22]: data = html.parse('http://httpbin.org/redirect/2')

In [23]: data.docinfo.URL
Out[23]: u'http://httpbin.org/get'

回答于 2025-04-17 由 Python大师

分享举报