优化pandas计算

for index, row in zipcodes.iterrows(): # ~100k zipcodes sql_string = """SELECT * from sale_transactions WHERE zipcode = '{ZIPCODE}' """ sql_query = sql_string.format(ZIPCODE=row['zipcode']) df = pd.read_sql(sql_query, _engine) area_stat = create_area_stats(df) # function does calculations area_stat.save() # saves a Django model

2条回答

网友

1楼 · 编辑于 2024-04-18 19:03:11

由于操作中的瓶颈是sqlwhere查询，所以解决方案是索引WHERE语句正在操作的列（即zipcode列）。在

在MySQL中，执行此操作的命令是：

ALTER TABLE `db_name`.`table` 
ADD INDEX `zipcode_index` USING BTREE (`zipcode` ASC);

在进行此更改后，循环执行速度提高了8倍。在

我发现this article很有用，因为它鼓励使用EXPLAIN分析查询，并观察key和{}值为{}时的列索引机会

网友

2楼 · 编辑于 2024-04-18 19:03:11

我也遇到了类似的问题，下面的代码帮助我有效地读取数据库（大约4000万行）。在

offsetID = 0
totalrow = 0



while (True):

    df_Batch=pd.read_sql_query('set work_mem="1024MB"; SELECT * FROM '+tableName+' WHERE row_number > '+ str(offsetID) +' ORDER BY row_number LIMIT 100000' ,con=engine)
    offsetID = offsetID + len(df_Batch)

    #your operation

    totalrow = totalrow + len(df_Batch)

必须在表中创建一个名为row_number的索引。所以这段代码将按索引方式读取表（100000行）。例如，当您想从200000到210000读取行时，不需要从0读取到210000。它将直接按索引读取。所以它会提高你的表现。在

相关问题更多 >

编程相关推荐

热门问题

热门文章