如何保持大Pandas的记忆效率?

2024-04-18 13:07:23 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个数据集,它有一个文本数据列,大约有600k行

所以我只想将文本数据保存到H5格式,以便将来更快地加载,我尝试使用垃圾收集器

这是我的密码

import pandas as pd
import numpy as np
import gc

df = pd.read_csv('Reviews.csv')

text = df['Text']

df = None
gc.collect()

text.to_hdf('text.h5','data',format='table')
text = None
gc.collect()


print("Done")

但不幸的是,这是给内存错误即使我有16gb的内存,我如何做到这一点而不放弃内存?你知道吗


Tags: csv数据内存text文本importnonedf