Google App Engine:如何使用TaskQueue或Async Urlfetch并行下载?

2 投票
2 回答
1063 浏览
提问于 2025-04-16 03:07

我的应用程序从一个第三方网站获取JSON数据;给定一个代表要下载的项目的ID,这个网站上的项目数据分布在多个页面上,所以我的代码需要一页一页地下载数据,直到最后一页的数据都获取到为止。
我简化后的代码大致是这样的:

class FetchData(webapp.RequestHandler):
  def get(self):
    ...
    data_list = []
    page = 1
    while True:
      fetched_data= urlfetch.fetch('http://www.foo.com/getdata?id=xxx&result=JSON&page=%s' % page)
      data_chunk = fetched_data["data"] 
      data_list = data_list + data_chunk
      if len(data_list) == int(fetched_data["total_pages"]):
         break
      else:
         page = page +1 
    ...  
    doRender('dataview.htm',{'data_list':data_list} )

这个data_list的结果是一个有序列表,列表的第一个项目是第一页的数据,最后一个项目是最新一页的数据;一旦获取到这个data_list,就会在视图中显示出来。

这种方法99%的时候都能正常工作,但有时候,由于谷歌应用引擎限制的30秒时间限制,对于那些有很多页面的项目,我会遇到令人头疼的DeadlineExceededError错误。我想知道是否可以通过使用任务队列|延迟任务|异步URL获取来改进这个算法,以某种方式并行处理N个urlfetch调用。

2 个回答

0

我已经用这个解决了:

chunks_dict = {}

def handle_result(rpc, page):
    result = rpc.get_result()
    chunks_dict[page] = result["data"]

def create_callback(rpc, page):
    return lambda: handle_result(rpc, page)

rpcs = []
while True:
    rpc = urlfetch.create_rpc(deadline = 10)
    rpc.callback = create_callback(rpc, page)
    urlfetch.make_fetch_call(rpc, 'http://www.foo.com/getdata?id=xxx&result=JSON&page=%s' % page)
    rpcs.append(rpc)
    if page > total_pages:
       break
    else:
       page = page +1   
for rpc in rpcs:
    rpc.wait()

page_keys = chunks_dict.keys()
page_keys.sort()
for key in page_keys:
    data_list= data_list + chunks_dict[key]
1

使用这个链接: http://code.google.com/appengine/docs/python/urlfetch/asynchronousrequests.html

它的用法很简单,如下所示:

def handle_result(rpc):
    result = rpc.get_result()
    # ... Do something with result...

# Use a helper function to define the scope of the callback.
def create_callback(rpc):
    return lambda: handle_result(rpc)

rpcs = []
for url in urls:
    rpc = urlfetch.create_rpc()
    rpc.callback = create_callback(rpc)
    urlfetch.make_fetch_call(rpc, url)
    rpcs.append(rpc)

# ...

# Finish all RPCs, and let callbacks process the results.
for rpc in rpcs:
    rpc.wait()

撰写回答