如何在不耗尽内存的情况下从sql查询创建大Pandas数据帧？

网友

1楼 · 编辑于 2024-05-14 23:44:54

如注释中所述，从pandas 0.15开始，在read_sql中有一个chunksize选项来逐块读取和处理查询：

sql = "SELECT * FROM My_Table"
for chunk in pd.read_sql_query(sql , engine, chunksize=5):
    print(chunk)

引用：http://pandas.pydata.org/pandas-docs/version/0.15.2/io.html#querying

网友

2楼 · 编辑于 2024-05-14 23:44:54

更新：确保查看下面的答案，因为Pandas现在内置了对分块加载的支持。

您只需尝试按块读取输入表，然后从各个块组装完整的数据帧，如下所示：

import pandas as pd
import pandas.io.sql as psql
chunk_size = 10000
offset = 0
dfs = []
while True:
  sql = "SELECT * FROM MyTable limit %d offset %d order by ID" % (chunk_size,offset) 
  dfs.append(psql.read_frame(sql, cnxn))
  offset += chunk_size
  if len(dfs[-1]) < chunk_size:
    break
full_df = pd.concat(dfs)

也可能是整个数据帧太大，无法放入内存，在这种情况下，除了限制所选行或列的数量之外，您没有其他选择。

网友

3楼 · 编辑于 2024-05-14 23:44:54

代码解决方案和备注。

# Create empty list
dfl = []  

# Create empty dataframe
dfs = pd.DataFrame()  

# Start Chunking
for chunk in pd.read_sql(query, con=conct, ,chunksize=10000000):

    # Start Appending Data Chunks from SQL Result set into List
    dfl.append(chunk)

# Start appending data from list to dataframe
dfs = pd.concat(dfl, ignore_index=True)

然而，我的内存分析告诉我，即使在提取每个块后释放内存，列表也会越来越大，占用内存，导致可用内存的净净收益没有增加。

想听听作者/其他人的意见。

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在不耗尽内存的情况下从sql查询创建大Pandas数据帧？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >