我在一个包含不完整url的页面中爬行,需要将其转换为完整的HTTP url,例如,原始地址为:http://www.example.com/dir1/dir1/
,索引文件包含以下链接:
/page.htm
page.htm
../page.htm
../../page.htm
我需要把它们转换成
http://www.example.com/page.htm
http://www.example.com/dir1/dir2/page.htm
http://www.example.com/dir/page.htm
http://www.example.com/page.htm
我不知道如何识别../
并从原始地址计算它们,urlparse(temp_href).geturl()
不起作用。你知道吗
如何正确转换它们?你知道吗
urljoin应该能帮到你。你知道吗
相关问题 更多 >
编程相关推荐