将解析页中的部分URL转换为完整URL

2024-03-28 10:56:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我在一个包含不完整url的页面中爬行,需要将其转换为完整的HTTP url,例如,原始地址为:http://www.example.com/dir1/dir1/,索引文件包含以下链接:

/page.htm
page.htm
../page.htm
../../page.htm

我需要把它们转换成

http://www.example.com/page.htm
http://www.example.com/dir1/dir2/page.htm
http://www.example.com/dir/page.htm
http://www.example.com/page.htm

我不知道如何识别../并从原始地址计算它们,urlparse(temp_href).geturl()不起作用。你知道吗

如何正确转换它们?你知道吗


Tags: 文件comhttpurl链接example地址www
1条回答
网友
1楼 · 发布于 2024-03-28 10:56:58

urljoin应该能帮到你。你知道吗

from urlparse import urljoin

base = "http://www.example.com/dir1/dir1/"
print urljoin(base, "/page.htm")
print urljoin(base, "page.htm")
print urljoin(base, "../page.htm")
print urljoin(base, '../../page.htm')

相关问题 更多 >