使用Python从短网址获取完整网址
我有一堆网址,比如:
l=['bit.ly/1bdDlXc','bit.ly/1bdDlXc',.......,'bit.ly/1bdDlXc']
我只是想把每个短网址转换成完整的网址。
这是我的方法:
import urllib2
for i in l:
print urllib2.urlopen(i).url
但是当列表里有成千上万的网址时,程序运行得很慢。
我想问:有没有什么办法可以缩短执行时间,或者我应该换个方法?
3 个回答
1
我建议你试试Twisted的异步网页客户端。不过要小心,这个工具完全没有限制请求的频率。
#!/usr/bin/python2.7
from twisted.internet import reactor
from twisted.internet.defer import Deferred, DeferredList, DeferredLock
from twisted.internet.defer import inlineCallbacks
from twisted.web.client import Agent, HTTPConnectionPool
from twisted.web.http_headers import Headers
from pprint import pprint
from collections import defaultdict
from urlparse import urlparse
from random import randrange
import fileinput
pool = HTTPConnectionPool(reactor)
pool.maxPersistentPerHost = 16
agent = Agent(reactor, pool)
locks = defaultdict(DeferredLock)
locations = {}
def getLock(url, simultaneous = 1):
return locks[urlparse(url).netloc, randrange(simultaneous)]
@inlineCallbacks
def getMapping(url):
# Limit ourselves to 4 simultaneous connections per host
# Tweak this as desired, but make sure that it no larger than
# pool.maxPersistentPerHost
lock = getLock(url,4)
yield lock.acquire()
try:
resp = yield agent.request('HEAD', url)
locations[url] = resp.headers.getRawHeaders('location',[None])[0]
except Exception as e:
locations[url] = str(e)
finally:
lock.release()
dl = DeferredList(getMapping(url.strip()) for url in fileinput.input())
dl.addCallback(lambda _: reactor.stop())
reactor.run()
pprint(locations)
2
from requests import get
def get_real_url_from_shortlink(url):
resp = requests.get(url)
return resp.url
当然可以!请把你想要翻译的内容发给我,我会帮你把它变得简单易懂。
14
第一种方法
根据建议,完成这个任务的一种方法是使用bitly的官方接口,不过这个方法有一些限制,比如每次请求不能超过15个shortUrl
。
第二种方法
作为另一种选择,可以选择不获取内容,比如使用HEAD
这个HTTP方法,而不是GET
。下面是一个示例代码,使用了非常棒的requests库:
import requests
l=['bit.ly/1bdDlXc','bit.ly/1bdDlXc',.......,'bit.ly/1bdDlXc']
for i in l:
print requests.head("http://"+i).headers['location']