Python urllib2.urlopen() 速度慢，如何更快读取多个网址

15 投票

9 回答

34771 浏览

数据工程师

提问于 2025-04-16 02:43

正如标题所说，我正在做一个用Python写的网站，它会多次调用urllib2模块来读取网页。然后我用BeautifulSoup来解析这些网页。

因为我需要读取5到10个网站，所以页面加载起来比较慢。

我在想有没有办法一次性读取这些网站？或者有没有什么技巧可以加快速度，比如说我应该在每次读取后关闭urllib2.urlopen，还是保持它一直打开？

补充说明：如果我换成PHP，获取和解析其他网站的HTML和XML文件会更快吗？我只希望它能加载得更快，而不是现在大约需要20秒的时间。

性能优化多线程数据解析网页抓取网络请求 beautifulsoup url处理 php性能

9 个回答

这可能不是最完美的方法。但当我需要从某个网站获取数据时，我通常会这样做：

import socket
def geturldata(url):
    #NO HTTP URLS PLEASE!!!!! 
    server = url.split("/")[0]
    args = url.replace(server,"")
    returndata = str()
    s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    s.connect((server, 80)) #lets connect :p

    s.send("GET /%s HTTP/1.0\r\nHost: %s\r\n\r\n" % (args, server)) #simple http request
    while 1:
        data = s.recv(1024) #buffer
        if not data: break
        returndata = returndata + data
    s.close()
    return returndata.split("\n\r")[1]

回答于 2025-04-16 由 Python大师

分享举报

编辑：请看看Wai的帖子，里面有这个代码的更好版本。要注意，这段代码没有问题，它会正常工作，尽管下面有一些评论。

读取网页的速度可能主要受限于你的网络连接，而不是Python本身。

你可以使用线程来同时加载多个网页。

import thread, time, urllib
websites = {}
def read_url(url):
  websites[url] = urllib.open(url).read()

for url in urls_to_load: thread.start_new_thread(read_url, (url,))
while websites.keys() != urls_to_load: time.sleep(0.1)

# Now websites will contain the contents of all the web pages in urls_to_load

回答于 2025-04-16 由 Python大师

分享举报

我正在用现代的Python模块，比如threading和Queue，重写下面这个“傻瓜”的代码。

import threading, urllib2
import Queue

urls_to_load = [
'http://stackoverflow.com/',
'http://slashdot.org/',
'http://www.archive.org/',
'http://www.yahoo.co.jp/',
]

def read_url(url, queue):
    data = urllib2.urlopen(url).read()
    print('Fetched %s from %s' % (len(data), url))
    queue.put(data)

def fetch_parallel():
    result = Queue.Queue()
    threads = [threading.Thread(target=read_url, args = (url,result)) for url in urls_to_load]
    for t in threads:
        t.start()
    for t in threads:
        t.join()
    return result

def fetch_sequencial():
    result = Queue.Queue()
    for url in urls_to_load:
        read_url(url,result)
    return result

函数find_sequencial()的最佳运行时间是2秒，而fetch_parallel()的最佳运行时间是0.9秒。

另外，说thread在Python中没用是错误的，因为有GIL（全局解释器锁）。在这种情况下，线程在处理输入输出时是有用的。正如你在我的结果中看到的，使用并行处理的情况快了2倍。

回答于 2025-04-16 由 Python大师

分享举报

Python urllib2.urlopen() 速度慢，如何更快读取多个网址

9 个回答

撰写回答