使用代理
我写了一个脚本(借助网络资源的帮助),这个脚本会从一个特定的网站获取可用的代理列表,然后一个一个地检查这些代理,找出哪个是有效的。一旦找到有效的代理,它就会用这个代理建立一个连接。以下是我的代码。
import urllib2
import urllib
import cookielib
import socket
import time
def getOpener(pip=None):
if pip:
proxy_handler = urllib2.ProxyHandler({'http': pip})
opener = urllib2.build_opener(proxy_handler)
else:
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookielib.CookieJar()))
opener.addheaders = [('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:7.0.1) Gecko/20100101 Firefox/7.0.1')]
urllib2.install_opener(opener)
return opener
def getContent(opnr, url):
req = urllib2.Request(url)
sock = opnr.open(req)
return sock.read()
def is_bad_proxy(pip):
try:
opnr = getOpener(pip)
data = getContent(opnr, 'http://www.google.com')
except urllib2.HTTPError, e:
return e.code
except Exception, detail:
return True
return False
def getProxiesList():
proxies = []
opnr = getOpener()
content = getContent(opnr, 'http://somesite.com/')
urls = re.findall("<a href='([^']+)'[^>]*>.*?HTTP Proxies.*?</a>", content)
for eachURL in urls:
content = getContent(opnr, eachURL)
proxies.extend(re.findall('\d{,3}\.\d{,3}\.\d{,3}\.\d{,3}:\d+', content))
return proxies
def getWorkingProxy(proxyList, i=-1):
for j in range(i+1, len(proxyList)):
currentProxy = proxyList[j]
if not is_bad_proxy(currentProxy):
log("%s is working" % (currentProxy))
return currentProxy, j
else:
log("Bad Proxy %s" % (currentProxy))
return None, -1
if __name__ == "__main__":
socket.setdefaulttimeout(60)
proxyList = getProxiesList()
proxy, index = getWorkingProxy(proxyList)
if proxy:
_web = getOpener(proxy)
而且每当我使用一个代理到一定程度时,我都需要重复这个过程。问题是,不断建立连接会不会导致问题呢?
因为我遇到了以下错误:HTTPError: HTTP Error 503: Too many open connections
。请帮我看看这个错误的原因是什么?谢谢!
1 个回答
2
我检查了一下,发现proxyList
里面有重复的内容。很多openers
都在尝试使用同一个代理,这就导致了错误HTTPError: HTTP Error 503: Too many open connections
。