使用Python和网络软管.io将web数据爬网到子窗体

import webhoseio, json, io webhoseio.config(token="YOUR API KEY") query_params = { "q": "organization:Amazon", "sort": "crawled" } results = webhoseio.query("filterWebContent", query_params) print(len(results)) with open('dataset.txt','w', encoding='utf8') as outfile: output = json.dumps(results, indent=4, sort_keys=True, separators=(',', ': '), ensure_ascii=False) outfile.write(output) #output = json.load(outfile) results = webhoseio.get_next() output += json.dumps(results, indent=4, sort_keys=True, separators=(',', ': '), ensure_ascii=False) outfile.write(output)

1条回答

网友

1楼 · 发布于 2024-04-28 05:35:20

查询的前100篇文章的内容（文章、元数据）存储在results['posts']中。因此，当您调用len(results['posts'])时，您应该得到一个100（假设您的查询至少产生100个结果）要获得下100个结果，您应该调用webhoseio.get_next()。为了得到所有的批次，你可以做一些

output = [] 
while True:
    temp = webhoseio.get_next()
    output = output+temp['posts']
    if temp['moreResultsAvailable'] <= 0:
        break

相关问题更多 >

编程相关推荐

热门问题

热门文章