我用Python 3编写了一个简单的两步解析脚本,工作方式如下:
1)给定URL的函数使用BeautifullSoup对其进行解析,收集简单系列中所有需要的数据,然后返回:
def parse(url):
...fill in Series
return Series
2)我有一个巨大的URL列表(超过5万个项目),我在一个循环中使用它:
for url in urls:
dataframe.append(parse(url))
当脚本运行时,内存使用量会增加很多(比如20分钟后就增加了5gb)。你知道吗
如何在每次迭代后正确清理内存或下载的缓存?你知道吗
好吧,伙计们,如果你们也遇到同样的问题:
1)确保使用汤.分解()完成后 2) 当然,当我试图把所有的数据都填入一个表格时,我犯了一个错误pd.数据帧在保存到文件之前。现在我得到一个小的tmp数据帧,一旦我得到固定数量的行,我就保存它,然后清除tmp。你知道吗
现在进程最多使用200 mb左右的ram。你知道吗
就这样,希望对任何人都有帮助。你知道吗
相关问题 更多 >
编程相关推荐