2024-05-23 14:26:54 发布
网友
例如,这两个链接指向同一位置:
http://www.independent.co.uk/life-style/gadgets-and-tech/news/chinese-blamed-for-gmail-hacking-2292113.htmlhttp://www.independent.co.uk/life-style/gadgets-and-tech/news/2292113.html
http://www.independent.co.uk/life-style/gadgets-and-tech/news/chinese-blamed-for-gmail-hacking-2292113.html
http://www.independent.co.uk/life-style/gadgets-and-tech/news/2292113.html
如何在python中检查它?在
很明显,仅仅从网址上看是不可能的。在
你可以获取内容并进行比较,但是我想你必须使用一个聪明的标准来决定两个页面何时是相同的,比如说,两个页面都指向同一篇文章,但是随机广告不同,或者相关文章根据其他因素而变化。在
以这样一种方式设计你的程序,匹配页面的标准很容易被替换,甚至是动态的,并且尝试直到你找到一个没有失败的页面,例如,对于一个报纸页面,你可以尝试查找标题。在
对urllib2.urlopen()的结果调用geturl()。geturl()“返回检索到的资源的URL,通常用于确定是否遵循了重定向。”
urllib2.urlopen()
geturl()
例如:
#!/usr/bin/env python # coding: utf-8 import urllib2 url1 = 'http://www.independent.co.uk/life-style/gadgets-and-tech/news/chinese-blamed-for-gmail-hacking-2292113.html' url2 = 'http://www.independent.co.uk/life-style/gadgets-and-tech/news/2292113.html' for url in [url1, url2]: result = urllib2.urlopen(url) print result.geturl()
输出为:
很明显,仅仅从网址上看是不可能的。在
你可以获取内容并进行比较,但是我想你必须使用一个聪明的标准来决定两个页面何时是相同的,比如说,两个页面都指向同一篇文章,但是随机广告不同,或者相关文章根据其他因素而变化。在
以这样一种方式设计你的程序,匹配页面的标准很容易被替换,甚至是动态的,并且尝试直到你找到一个没有失败的页面,例如,对于一个报纸页面,你可以尝试查找标题。在
对
urllib2.urlopen()
的结果调用geturl()
。geturl()
“返回检索到的资源的URL,通常用于确定是否遵循了重定向。”例如:
输出为:
^{pr2}$相关问题 更多 >
编程相关推荐