pandas.read_sql 处理速度

8 投票
1 回答
18733 浏览
提问于 2025-04-18 01:25

我需要把一个MySQL查询的结果集处理成数据框(dataframe)。这个SQL表大约有200万行和12列(数据大小 = 180 MiB)。我在使用OS X 10.9,内存是8GB。请问,pandas.read_sql返回数据框需要超过20秒,这正常吗?怎么像pandas.read_csv那样实现一个分块大小的选项?

编辑:Python 2.7.6,pandas 0.13.1

1 个回答

4

Pandas的文档显示,使用read_sql()read_sql_query()读取文件的时间大约是使用read_hdf()的10倍,使用read_csv()的3倍。

现在,read_sql()增加了一个叫做chunk-size的参数(具体可以查看文档)。

撰写回答