使用Python从短网址获取完整网址

5 投票

3 回答

6476 浏览

提问于 2025-04-18 16:50

我有一堆网址，比如：

l=['bit.ly/1bdDlXc','bit.ly/1bdDlXc',.......,'bit.ly/1bdDlXc']

我只是想把每个短网址转换成完整的网址。

这是我的方法：

import urllib2

for i in l:
    print urllib2.urlopen(i).url

但是当列表里有成千上万的网址时，程序运行得很慢。

我想问：有没有什么办法可以缩短执行时间，或者我应该换个方法？

性能优化批量处理短网址网址解析

3 个回答

我建议你试试Twisted的异步网页客户端。不过要小心，这个工具完全没有限制请求的频率。

#!/usr/bin/python2.7

from twisted.internet import reactor
from twisted.internet.defer import Deferred, DeferredList, DeferredLock
from twisted.internet.defer import inlineCallbacks
from twisted.web.client import Agent, HTTPConnectionPool
from twisted.web.http_headers import Headers
from pprint import pprint
from collections import defaultdict
from urlparse import urlparse
from random import randrange
import fileinput

pool = HTTPConnectionPool(reactor)
pool.maxPersistentPerHost = 16
agent = Agent(reactor, pool)
locks = defaultdict(DeferredLock)
locations = {}

def getLock(url, simultaneous = 1):
    return locks[urlparse(url).netloc, randrange(simultaneous)]

@inlineCallbacks
def getMapping(url):
    # Limit ourselves to 4 simultaneous connections per host
    # Tweak this as desired, but make sure that it no larger than
    # pool.maxPersistentPerHost
    lock = getLock(url,4)
    yield lock.acquire()
    try:
        resp = yield agent.request('HEAD', url)
        locations[url] = resp.headers.getRawHeaders('location',[None])[0]
    except Exception as e:
        locations[url] = str(e)
    finally:
        lock.release()


dl = DeferredList(getMapping(url.strip()) for url in fileinput.input())
dl.addCallback(lambda _: reactor.stop())

reactor.run()
pprint(locations)

回答于 2025-04-18 由 Python大师

分享举报

from requests import get

def get_real_url_from_shortlink(url):
    resp = requests.get(url)
    return resp.url

当然可以！请把你想要翻译的内容发给我，我会帮你把它变得简单易懂。

回答于 2025-04-18 由 Python大师

分享举报

第一种方法

根据建议，完成这个任务的一种方法是使用bitly的官方接口，不过这个方法有一些限制，比如每次请求不能超过15个shortUrl。

第二种方法

作为另一种选择，可以选择不获取内容，比如使用HEAD这个HTTP方法，而不是GET。下面是一个示例代码，使用了非常棒的requests库：

import requests

l=['bit.ly/1bdDlXc','bit.ly/1bdDlXc',.......,'bit.ly/1bdDlXc']

for i in l:
    print requests.head("http://"+i).headers['location']

回答于 2025-04-18 由 Python大师

分享举报

使用Python从短网址获取完整网址

3 个回答

撰写回答